搜索

耀世资讯

公司动态
行业新闻

联系我们

Contact us

电话:400-123-4567
Q Q:1234567890
邮箱:admin@youweb.com
地址:广东省广州市天河区88号

抖音采集,如何抓取数据

发布时间:2024-01-08 21:58:27 作者:佚名

抖音App和服务端交互使用的是HTTPS协议,使用Fiddler很容易可以捕获到数据,如下图所示。


不过想要自己模拟一个有效的请求可不是那么容易了,因为它使用了签名机制,在所有请求中都有as和cp两个签名参数,除非得知签名算法否则我们无法构造出有效的请求。

这里我们使用模拟操作抖音App的方式,让App帮我们发出有效的请求,然后我们拦截服务器的HTTP应答数据,再从中提取我们感兴趣的信息。

下面结合一个实际的案例介绍下整个过程,根据客户的需求,要采集一些指定用户加关后的系统推荐“你可能感兴趣”的数据(如下图所示)用于商品营销。



点击“查看更多”可以看到更多的系统推荐用户列表数据,如下图所示。



我们按如下步骤模拟操作App:

1.启动抖音。

2.点击搜索按钮。

3.输入搜索关键词(抖音用户ID),点击搜索。

4.找到匹配的用户,点击关注。

5.点击系统推荐“查看更多”,模拟多次向上滑动屏幕,直至数据加载完毕(屏幕出现“暂时没有更多了”)。

于此同时,我们使用抓包脚本(可以使用Fiddler的Customize Rules,也可以使用Mitmproxy),捕获并过滤URL中含有/user/recommend/的HTTP应答数据,从JSON数据中提取系统推荐的用户信息(如下图所示)。

模拟操作抖音App的脚本核心代码如下所示:

view plaincopy to clipboardprint?
from com.dtmilano.android.viewclient import ViewClient

def search_douyin_for_recommend_user(douyin_id):
“”“采集指定抖音账号的关注推荐数据
“””
log(u’准备采集"{}"对应的关注推荐数据’.format(douyin_id))
# 连设备
serialno=None
if serialno:
os.system(‘adb connect{}’.format(serialno or ‘’))
time.sleep(3)

device, serialno=ViewClient.connectToDeviceOrExit(serialno=serialno)  
 vc=ViewClient(device, serialno, autodump=False)  
   
 # 强制关闭抖音  
 log(u'强制关闭抖音.')  
 device.shell('am force-stop com.ss.android.ugc.aweme')  
 time.sleep(2)  
   
 # 启动抖音  
 log(u'启动抖音.')  
 device.shell('am start -n com.ss.android.ugc.aweme/.main.MainActivity')  
 time.sleep(5)  
 # 暂停视频播放  
 log(u'点击屏幕,暂停视频播放.')  
 device.touch(514, 1048)  
   
 # 点击搜索按钮  
 vc.dump()  
 search_btn=vc.findViewById('com.ss.android.ugc.aweme:id/amj')  
 if search_btn:  
      log(u'点击搜索按钮,跳转到搜索页面.')  
      search_btn.touch()  
   
      vc.dump()  
      # 点击搜索输入框  
      search_input=vc.findViewById('com.ss.android.ugc.aweme:id/ad_')  
      if search_input:  
           log(u'点击搜索框,准备输入关键词.')  
           search_input.touch()  
             
           # 输入抖音ID  
           log(u'输入搜索关键词:{}.'.format(douyin_id))  
           device.type(douyin_id.encode('UTF-8'))  
             
           # 点击搜索按钮  
           search_btn=vc.findViewById('com.ss.android.ugc.aweme:id/cp8')  
           if search_btn:  
                log(u'提交搜索.')  
                search_btn.touch()  
                time.sleep(2)  
                vc.dump()  
                  
                ## 切换到用户  
                #user_tab=vc.findViewWithText(u'用户')  
                #user_tab.touch()  
                  
                # 找到匹配的  
                matches=[]
                def find_matches(view):  
                     if view.getClass()=='android.widget.TextView':  
                          text=view.getText()  
                          if douyin_id.lower() in text.lower():  
                               # 找到匹配的了  
                               log(u'找到匹配的:{}'.format(text))  
                               matches.append(view)  
                          else:  
                               #print text  
                               pass  
                vc.traverse(transform=lambda view: find_matches(view))  
                if matches:  
                     # 有没有已关注按钮  
                     btn=vc.findViewWithText(u'已关注')  
                     if btn:  
                          # 先取消关注  
                          log(u'之前关注过,先取消关注.')  
                          btn.touch()  
                          time.sleep(1)  
                     user_matched=matches[0]
                     log(u'点击进入个人主页.')  
                     user_matched.touch()  
                     time.sleep(1)  
                       
                     # 点关注  
                     vc.dump()  
                     follow_btn=vc.findViewById('com.ss.android.ugc.aweme:id/aei')  
                     if follow_btn:  
                          # 点击关注  
                          log(u'点击关注')  
                          follow_btn.touch()  
                          time.sleep(1)  
                          # 点击查看更多  
                          vc.dump()  
                          viewmore_btn=vc.findViewById('com.ss.android.ugc.aweme:id/bqn')  
                          if viewmore_btn:  
                               # 点击查看更多  
                               log(u'点击查看更多系统推荐')  
                               viewmore_btn.touch()  
                               time.sleep(1)  
                               i=0  
                               while True:  
                                    # 上滑动  
                                    device.drag((345, 1762), (345, 550), duration=100)  
                                    log(u'上滑以加载更多')  
                                    i +=1  
                                    if i % 5==0:  
                                         # 拖动10次判断一下是否还有更多  
                                         vc.dump()  
                                         if vc.findViewWithText(u'暂时没有更多了'):  
                                              log(u'暂时没有更多了, "{}"的关注推荐数据采集完毕.'.format(douyin_id))  
                                              # 采集成功了  
                                              return True  
                                         failed_tip=vc.findViewWithText(u'加载失败,点击重试')  
                                         if failed_tip:  
                                              log(u'加载失败,点击重试.')  
                                              failed_tip.touch()  
                          else:  
                               # 没有找到查看更多按钮  
                               log(u'没有找到查看更多按钮')  
                     else:  
                          # 没有找到加关注按钮  
                          log(u'没有找到加关注按钮')  
                else:  
                     # 没有找到匹配的用户  
                     log(u'没有找到匹配的用户')  
           else:  
               # 没有找到搜索提交按钮  
                log(u'没有找到搜索提交按钮.')  
      else:  
           # 没有找到搜索输入框  
           log(u'没有找到搜索输入框.')  
 else:  
      # 没有找到搜索按钮  
      log(u'没有找到搜索按钮.')

上述脚本的运行截图如下所示:



最后附上抓取到的部分示例数据:

如果您有好的想法和建议的话可以交流一下!

热线电话:400-123-4567
电子邮箱:admin@youweb.com
Q Q:1234567890
地址:广东省广州市天河区88号
备案号:
耀世娱乐-耀世平台-耀世加盟站

关注我们

Copyright © 2002-2017 耀世-耀世平台-耀世加盟站 版权所有

平台注册入口