一、往期分享

你好,我是 @马哥python说 ,一枚10年程序猿。

之前我分享过用Python爬虫爬取YouTube频道的数据:

也分享过python情感分析李子柒频道评论数据:

于是,受到了一些小伙伴的关注。

二、数据诉求

这段时间,有超多小伙伴找我要YouTube数据,做数据分析、情感分析之类的研究工作,但很多人并不是计算机软件相关专业,不具备爬虫开发技术,但又有数据需求,可能是新闻传播学、社会学等相关学科,旨在分析社会热点现象下各国网友的评论关键词、舆论舆情导向、评论感情色彩等研究内容,缺少数据源分析对象。

基于此研究目的,所以我的采集对象,无论是视频,还是评论,都选择按热门排序。这样的数据才最具代表性,最能体现网友的核心关注点和舆论倾向!

由此确定以下爬取目标。

三、爬取目标

爬取目标:李子柒频道TOP10热门视频的TOP2000热门评论(共计2w条)

李子柒是国内有代表性的youtuber之一,我用爬虫爬取的TOP10热门视频的评论:

李子柒TOP10热门视频

每个视频下方的TOP2000评论,同样按热门排序。比如TOP1视频的评论如下:

也就是李子柒频道的10个视频,每个视频2000条评论,共2w条评论,爬取完成。(10*2000=2w)

四、结果展示

先看下我整理的李子柒TOP10热门视频列表:

李子柒TOP10视频

下面看爬取到的评论数据。

共10个评论数据文件,每个文件对应一个视频,每个文件内含2000条评论。

(文件名并不是乱码,而是YouTube视频id号哦)

10个评论数据文件

随便打开一个文件,比如TOP1热门视频的评论,看下内容:

包含字段:评论id、评论内容、评论时间、评论作者、作者频道、点赞数

TOP1热门视频前排热门评论
五、演示视频
六、获取方式

爱学习的小伙伴,想获取完整数据文件,移步我的微信公众号"老男孩的平凡之路",后台回复关键字"李子柒评论",即可获取完整数据!

推荐阅读: