你好,我是 @马哥python说 ,一枚10年程序猿。
之前我分享过用Python爬虫爬取YouTube频道的数据:
也分享过python情感分析李子柒频道评论数据:
于是,受到了一些小伙伴的关注。
二、数据诉求这段时间,有超多小伙伴找我要YouTube数据,做数据分析、情感分析之类的研究工作,但很多人并不是计算机软件相关专业,不具备爬虫开发技术,但又有数据需求,可能是新闻传播学、社会学等相关学科,旨在分析社会热点现象下各国网友的评论关键词、舆论舆情导向、评论感情色彩等研究内容,缺少数据源分析对象。
基于此研究目的,所以我的采集对象,无论是视频,还是评论,都选择按热门排序。这样的数据才最具代表性,最能体现网友的核心关注点和舆论倾向!
由此确定以下爬取目标。
三、爬取目标爬取目标:李子柒频道TOP10热门视频的TOP2000热门评论(共计2w条)
李子柒是国内有代表性的youtuber之一,我用爬虫爬取的TOP10热门视频的评论:
每个视频下方的TOP2000评论,同样按热门排序。比如TOP1视频的评论如下:
也就是李子柒频道的10个视频,每个视频2000条评论,共2w条评论,爬取完成。(10*2000=2w)
四、结果展示先看下我整理的李子柒TOP10热门视频列表:
下面看爬取到的评论数据。
共10个评论数据文件,每个文件对应一个视频,每个文件内含2000条评论。
(文件名并不是乱码,而是YouTube视频id号哦)
随便打开一个文件,比如TOP1热门视频的评论,看下内容:
包含字段:评论id、评论内容、评论时间、评论作者、作者频道、点赞数。
五、演示视频六、获取方式爱学习的小伙伴,想获取完整数据文件,移步我的微信公众号"老男孩的平凡之路",后台回复关键字"李子柒评论",即可获取完整数据!
推荐阅读: