YouTube(世界著名的视频共享网站)维护该平台上最流行的列表。要确定当年最热门的视频,YouTube会综合考虑多种因素,包括衡量用户的互动(观看次数,分享次数,评论和喜欢的次数),它们并不是整个日历年度中观看次数最多的视频”。YouTube趋势列表中反响最好的是音乐视频(例如著名的“ Gangam Style”),名人和/或真人秀表演等。该数据集是最热门YouTube视频的每日记录。
简短有趣的小视频非常受人们的欢迎,大家用空闲时间刷到这些短视频,在流量至上的时代把握用户的喜好是非常重要的。

一.提出问题
1.哪些视频ID发布的视频观看数最多?其相应的发布数量和点赞数量都是多少,都属于什么类型?
2.发布视频数量多但观看数少的视频ID有哪些?是什么类型的视频?
3.哪些创作者上榜的次数最多?
4.一般视频发布几天后会推荐?推荐和发布的天数差为多少的视频的播放量高?
5.发布视频中什么类型的视频数量最多?什么类型的视频平均播放次数最多?什么类型的视频观看量最多?点赞数最多?
6.几点发布的视频观看数最高?周几发布(推荐)的视频观看数最高?几月发布(推荐)的视频观看数最高?
二.理解数据
1.字段的含义

三.数据清洗
数据清洗步骤:选择子集,删除重复值,缺失值处理,一致化处理,数据排序,异常值处理。
1.选择子集:选择trending_date,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count作为分析数据。共19869条数据。
2.删除重复值:
找到id,trending_date相同的重复行,共找到13条数据,将他们从主表删除,共删掉263条数据。

3.缺失值处理
在mysql中,设计表,将每一列都设置成非空,然后查找每一列的数据

4.一致化处理
将trending_date转换为日期的规整形式,将publishtime的日期,时间,月份,星期,trending_date和publish_date的间隔时间提取出来


最后结果为:

5.数据排序:发布热门时间进行升序排列
6.异常处理:数据中,34和23的category_id相同均是comedy,因此将34替换为23。
四.数据分析
1.哪些视频ID发布的视频观看数最多?其相应的发布数量和点赞数量呢?都属于什么类型?



(1)VYOjWnS4cMY是播放量,喜欢量都是断层Top 1的视频ID。
(2)ffxKSjUwKdU是播放量第二高,但是点赞量排在第三,播放量高点赞量少。
(3)7C2z4GqqS5E是播放量第三高,点赞量排在第二,播放量少点赞量高。
前三都属于music类型的视频,下方的图表是前十名总播放量视频类别的占比,由此可知用户最喜欢的就是music,接下来喜欢的是Film&Animation和Entertainment。

2.发布视频数量多但观看数少的视频ID有哪些?是什么类型的视频?


筛选出视频发布数量前50的数据,筛掉ffxKSjUwKdU,VYOjWnS4cMY,ulNswX3If6U这几个发布数量多浏览量也多的数据,剩下的如图所示的数据

中QDk-xa1oBXw,4LlQwTgB5Rc,E2qtPth2W6w,86ysRAffCpI,zLuhCfBqf5U,4HX6R88QZB0,1h7KV2sjUWY,c0bsKc4tiuY,xrMfUeOPWto,1purAy2MsOc这几个的视频发布数量多,但是播放量却很少,用sql语句整合出他们的类型

画出饼状图

可见是由 Music 类别居多,还有是Film & Animation,Science & Technology
这些视频ID应该要找到其播放量不高的原因,努力提高视频的质量而不是数量。
3.哪些创作者上榜的次数最多?
筛选出上榜次数最多的创作者,前三分别是CNN,INSIDER,TED-Ed

4.一般视频发布几天后会推荐?推荐和发布的天数差为多少的视频的播放量高?

由图可知,视频发布1-7天开始被推荐,在6,7天时是推荐播放量最高的。
5.发布的视频中什么类型的视频数量最多?什么类型的视频平均播放次数最多?什么类型的视频观看量和点赞数最多?


根据筛选,Music类型的视频是发布视频数量最多,平均播放次数,观看量和点赞量最高的。
其次是Film & Animation,Shows,Gaming。
Entertainment视频虽然数量最多,但是平均观看次数并不高。
并且
1.类别Education拥有最高的likes/disliks(踩赞比)比值(47.84),对于教育类视频人们很少产生厌恶情绪,并且经常点赞
2.类别Gaming的likes/dislike(踩赞比)比值最低(5.12),对于一些不好的游戏视频人们产生厌恶情绪较大
3.Nonprofits & Activism的likes/dislike比值倒数第二,同时views/comment_count(观评比)非常低,证明人们很愿意去评论

6.几点发布的视频观看数最高?周几发布(推荐)的视频观看数最高?几月发布(推荐)的视频观看数最高?

由图可知,上午四点发布视频的观看量最高,其次是下午四点

如图所示,周四周五发布的视频观看量较高,而推荐时间几乎没影响观看量

如图,五月份的视频发布和推荐观看量最高。
7-10月发布的视频数量非常少
建议:
(1)想获得较高的观看数和点赞数,可以选择发布Music类型的视频,就算是发布热门类型视频也要想办法提高视频的质量而不是数量。尽量提高观看数,这样点赞数和评论数也会相应得到提高。
(3)发布Music,Film & Animation这些类型的视频容易更受欢迎,谨慎发布Entertainment类型的视频,数量太多且观看数不多。
(4)选择在上午4点,下午2-4点发布视频观看数和点赞数可能更多。选择在周五发布视频观看数和点赞数可能更多,尽量不要在周六发布视频。5月是发布视频的最佳时间,其次是4月。