数据集介绍:

该数据集包含有关YouTube每日热门视频的数月(且在不断增加)的数据。包括美国,GB,DE,CA和FR地区(分别为美国,英国,德国,加拿大和法国)的数据,每天最多列出200个趋势视频。

每个区域的数据都在单独的文件中。数据包括视频标题,频道标题,发布时间,标签,观看次数,喜欢和不喜欢,描述以及评论数。

category_idJSON

有关数据集中特定列的更多信息,请参阅列元数据。

提出问题:

  • 哪些视频ID发布的视频观看数最多?其相应的发布数量和点赞数量呢?都属于什么类型?
  • 发布视频数量多但观看数少的视频ID有哪些?都是什么类型的视频?
  • 观看数、点赞数、不喜欢数、评论数四者之间的相关性分析。
  • 各视频的标签的标签云图,出现次数最多的标签是哪些?
  • 观看数TOP50的视频出现最多的标签是哪些?
  • 一般视频发布几天后会推荐?推荐和发布的天数差为多少的视频的播放量高?
  • 发布的视频中什么类型的视频数量最多?什么类型的视频平均播放次数最多?
  • 发布的视频中什么类型的视频观看量最多?点赞数最多?
  • 一般喜欢在几点发布视频?
  • 几点发布的视频观看数最高?
  • 周几发布(推荐)的视频观看数最高?
  • 几月发布(推荐)的视频观看数最高?

2.理解数据

3.数据清洗

格式转换

1.用记事本打开csv文件—另存为—编码设置为utf-8

2.用Excel打开并保存为xlsx格式

3.选择子集:

删除重复值:

数据处理:

trending_date(推荐日期)列处理:

由于trending_date列不是标准的日期格式,需要进行处理

在其左边添加一列全为20的数字列B,再在C列右边添加一列D,输入公式=B2&C2,再使用查找替换,将所有的 "." 的分隔符换为 "-",最好利用分列功能将其转化为日期型格式

利用WEEKDAYMONTH函数添加推荐日期的周和月份两列


publish_date(发布日期)列处理:

先使用LEFT函数【=LEFT(H2,10)】提取日期,并和发布日期一样利用WEEKDAYMONTH函数添加推荐日期的周和月份两列

再使用MID函数【=MID(H2,12,12)】提取时间,其为一个字符

最后再用LEFT函数【=LEFT(I2,2)】提取出发布小时

添加 发布|推荐时间差 这一列:

最终字段如下图:



哪些视频ID发布的视频观看数最多?其相应的发布数量和点赞数量呢?都属于什么类型?

先用Excel的数据透视表进行分析

选择发布视频数量、观看数、点赞数TOP10的视频ID(发布视频数量因为有并列所以有16个)并删除7个重复项,用VLOOKUP函数匹配其相应的视频数量、观看数、点赞数、类别ID、类别,一个选择了29个视频ID

将上述图表导入Tableau进行可视化分析

由图可见:

id为VYOjWnS4cMY的观看数和点赞数均最多

id为ffxKSjUwKdU的观看数较多,但点赞数稍少

id为7C2z4GqqS5E的观看数稍少,但点赞数较多

上述3个ID发布的视频类别均为Music,可见该类别非常受欢迎。

发布视频数量多但观看数少的视频ID有哪些?都是什么类型的视频?

由图可知:

id为VYOjWnS4cMY的观看数最多,是其他的两倍以上,但发布的视频个数并不是最多的。

图表的下面一部分有许多发布的视频很多,但是观看数比较少的,分别是

MAjY8mCTXWk,mdWcaWBxxcY,8h--kFui1JA,UfKmSfgFxi8,6S9c5nnDd_s,j4KvrAUjn6c,,iILJvqrAQ_w,r-3iathMo7o

这8个视频ID发布的视频类别分布为

可见是由 Entertainment 和 Music 类别居多,还有两个分别是Film & Animation,Science & Technology

这些视频ID应该要找到其播放量不高的原因,努力提高视频的质量而不是数量。

观看数、点赞数、不喜欢数、评论数四者之间的相关性分析

结论:

观看数和点赞数,点赞数和评论数有明显的相关性

观看数和评论数,不喜欢数和评论数有着一般的相关性

观看数和不喜欢数,点赞数和不喜欢数没有相关性

各视频标签的标签云图是怎样的?出现次数最多的标签是哪些?

代码参考了以下文章:

python代码如下:

结论:出现最多的标签是:music,video,makeup,tutorial,star,wars

观看数TOP50的视频出现最多的标签是哪些?

因为只有50条标签,数量不多,直接用网站生成即可,上面一个问题由于4w条数据太多网站运行不了才用Python,网址如下:

结论:

出现最多的标签是:Sin,Video,Natasha,Natti,Rewind,Records,Rap,Grace

其中Natti Natasha是一位歌手的名字,说明她非常受欢迎。Video,Rewind,Records,Rap也均与音乐有关。

一般视频发布几天后会推荐?推荐和发布的天数差为多少的视频的播放量高?

结论:大部分视频发布1-7天后会被推荐,发布6天后推荐的视频的播放量最高

发布的视频中什么类型的视频数量最多?什么类型的视频平均播放次数最多?

结论:平均观看次数最多的视频类型是Music,其次是Film & Animation,Shows,Gaming

Entertainment(娱乐性)视频虽然数量最多,但是平均观看次数并不高。

发布的视频中什么类型的视频观看量最多?点赞数最多?

结论:观看数和点赞数最多的视频类别均为Music,且比其他类型的视频高出非常多。

一般喜欢在几点发布视频?

结论:选择在下午3-5点发布视频的人数最多。

几点发布的视频观看数和点赞数最高?

结论:凌晨4点,下午2-4点发布的视频观看数和点赞数最高。

周几发布的视频观看数和点赞数最高?

结论:周五发布的视频观看数明显较高,周六发布的视频观看数明显较低。

推荐日期和观看数基本趋于稳定。

几月发布(推荐)的视频观看数最高?

Taleau可视化分析:

结论:

5月发布的视频,发布数量,观看数,点赞数均最多,

4月发布的视频,虽然发布数量排名第6,但是观看数和点赞数均排第2,

7-10月发布的视频数量非常少。

建议:

  • 想获得较高的观看数和点赞数,可以选择发布Music类型的视频
  • 应该要想办法提高视频的质量而不是数量。
  • 要想办法提高观看数,这样点赞数和评论数也会相应得到提高。
  • 有与Sin,Video,Natasha,Natti,Rewind,Records,Rap,Grace相关标签的视频可能会更受欢迎。
  • 发布Music,Film & Animation,Shows,Gaming这些类型的视频容易更受欢迎,谨慎发布Entertainment类型的视频,数量太多且观看数不多。
  • 选择在凌晨4点,下午2-4点发布视频观看数和点赞数可能更多。
  • 选择在周五发布视频观看数和点赞数可能更多,谨慎在周六发布视频。
  • 5月是发布视频的最佳时间,其次是4月。