目录

  • 前言
  • 一、网页分析
  • 二、主要代码
  • 1.请求Json包
  • 2. Guesstoken获取
  • 2.Json文件解析
  • 3.存入xlsx
  • 运行效果
  • 名人信息解析获取
  • 存入excel
  • 总结



前言

最近在帮助做BD的哥们寻找社交媒体红人,目前主要是Twitter,Youtube,Instagram,以及微博,B站,知乎这几个平台,根据关键词去自动获取满足相关条件的名人,对名人做一个初步的筛选,方便后续联系,因此设计了一套社交名人爬虫系统,目前已经在稳定使用中,有需要使用的朋友也可以联系。

twitter代码实现java 中国的推特代码_python

今天大概讲一下Twitter的抓取,Twitter作为一款世界级的媒体平台,拥有大量的用户以及用户发布的海量信息,价值巨大。Github以及Twitter本身也有API或者抓取工具,但都并不是很符合我的使用需求,因此自己根据Twitter现有的接口设计了一套。


一、网页分析

由于我只需要查找根据关键词查找推文,从而获取相关的用户。因此我选择的是不需要登录的接口,根据查询网上的信息,找到Twitter高级搜索的网址:Twitter高级搜索 进入之后可以看到页面如下

twitter代码实现java 中国的推特代码_python_02


使用F12打开网络分析,随便输入关键词与筛选条件,获取相关请求,如图所示,搜索BItcoin相关的名人,从2021年到2022年的,就可以获取到相关的推文以及用户。

twitter代码实现java 中国的推特代码_twitter_03


进入网络,就可以看到所有的请求包,此时就需要对这些包进行分析,如果里面包含有我们需要的数据,我们使用request等网络请求包模拟相关请求获取数据即可。

twitter代码实现java 中国的推特代码_python_04


经过一通分析,发现推文相关JSON文件在下图的这个包里。接下来的事情就比较好办了,直接右键点击包,选择复制,复制为cURL(bash),然后打开cURL转Python程序的网站,将请求转为Python代码。

twitter代码实现java 中国的推特代码_twitter_05


直接复制出Python代码即可

twitter代码实现java 中国的推特代码_twitter代码实现java_06

二、主要代码

1.请求Json包

代码如下

2. Guesstoken获取

经过测试,如果过多的请求使用同样的guess_token会导致获取不到数据的情况,因此,需要隔一段时间获取一次guess_token,guess_经过分析,guess_token获取只需要每隔一段时间给服务器发送一次请求即可。token获取链接如下:token获取

代码如下:

2.Json文件解析

代码如下:

3.存入xlsx

保存我是要的是openxyl库进行保存,将相关信息追加存入excel进行保存

运行效果

名人信息解析获取

twitter代码实现java 中国的推特代码_twitter_07

存入excel

twitter代码实现java 中国的推特代码_twitter代码实现java_08

总结

以上就是对twitter搜索的整个抓取过程,目前已经稳定运行。上述只是简易版本,高级版本目前可以获取用户,推文以及用户粉丝的信息,主要服务运营以及科研相关获取数据。其他相关社媒获取分析也会在后续更新,欢迎催更。