背景
大家知道,YouTube的博主的收入是由广告+广告商赞助构成的。目前kaggle上有免费的YouTube的热门视频数据,这就在告诉你,这些视频不是视频,而是香喷喷的钱 !那么,假设来了,如果我是一个新人,我要在YouTube上创出一片天地,这份数据对我而言有何参考作用?
假定评价一个视频是否火的评判标准是观看量。那么我要怎么做才有概率火起来呢?
数据来源
kaggle的公开数据。该数据集包含有关YouTube每日热门视频的数据。包括美国,GB,DE,CA和FR地区(分别为美国,英国,德国,加拿大和法国)的数据,每天最多列出200个趋势视频。
数据中category_id字段,在相关的json文件中。
该文章分析的是德国地区的YouTube的热门视频。
提出问题
仔细观察了数据中的字段,发现可以从这几个角度去分析数据。
- 定位
- 不同类型电影的上榜数量?
- 不同类型电影的热度如何?
(为账号定位提供一方面的支持)
- 内容
- 发布时间是如何分布的?
- 从发布到上榜的时间差?不同类型之间有区别吗?
- 标签的长短与热度有关系吗?
- 粉丝互动
- 喜欢,不喜欢,评论,甚至关评论等等之间与观看有没有什么关系?
- 不同类别之间,喜欢,不喜欢,评论和观看是怎么样的?
数据处理
category _id字段的内容在json文件中,因此需要对这个字段做处理。
然后对相应category_id进行修改,字典中key为str类型,需要将原数据中的category_id进行str转化。
初步看了下,2个时间都是object类型,然后对2个时间序列进行处理。
然后再对重复值,缺失值进行处理。
数据分析
不同类型电影的上榜数量?
娱乐方面的视频上榜数远远大于第二,第三名,说明娱乐类型的视频受众比较广泛,大家都爱看,比较容易上热门。
不同类型电影的热度如何?
综合不同类型的上榜数量可以观察到,虽然娱乐类的上榜数量很多,但是其平均的流量量却表现一般。音乐,电影以及film&animation的平均浏览度更高,但movie的上榜数量非常少,说明要上榜难度很大(或者这个领域内的整体创作数量不多)。
数据离散太大,箱型图并不能太直观的展现,但可以得到这几个结论。
- 娱乐和音乐的播放上线比较高,超高播放量都是从这2个类别里出的
- 电影整体的播放量很集中(相较于其他而言),且中位数较高,一旦上榜,其播放量必有较好的反响。
- music也有较好的中位数,上四分位数较高,view整体的表现较好。
作为一个新人youtube博主,选择一个平均浏览量高较高,且上榜数量较多(至少说明受众较多)的领域作为开拓较好。可以暂时先把入场的目标选定为娱乐,音乐,以及film&animation。
发布时间是如何分布的?
下午16点是发布的高峰期,猜测可能是因为发布过后的几个小时(5-8点左右),是用户刷youtube的高峰期,这段时间的观看量可能是能否上热门的重要评判条件。因此可以考虑在下午15点—下午18点之间发布。
从发布到上榜的时间差?不同类型之间有区别吗?
可以看到,有91.58%的youtube热门视频在3天之内上了热搜,6.83%的视频在3-5天之内上了热搜,1.58%的视频在5天之后上热搜。
这说明,我们的视频如果3天之内没爆,那几乎是不可能会爆了。赶紧准备准备下一个了。毕竟更新节奏不能断。
标签的长短与热度有关系吗?
可以很明显的看到,2个变量之间是没有相关性的。阅读量较高的music标签较少,仅17个;娱乐类标签有21个,而film&animation有20个。
喜欢,不喜欢,评论,甚至关评论等等之间与观看之间有没有什么关系?
负相关:从整体来看,负相关都在-0.01以下,没有呈现明显的负相关性。
正相关:like和views,view和comment_count以及view和dislike之间都有比较强的正相关性。特别是like和views,达到了0.83。
让我们进一步查看各类别之间view,like,dislike以及comment 之间的关系。
由于类别太多,我分了2组。
(2-5):可以大致分为4类,第一类蓝色点类(音乐)称之为口碑类,大部分视频获得的喜欢的增长要大于view的增长,说明这类视频是好评较多的口碑视频;第二类是绿色点类(娱乐类)称之为普通类,随着view的增长喜欢也同步增长,但后期随着view的增长,喜欢的增速度有所下降;第三类棕色(科学和科技)称之为无感类,views增长的速度远远大于喜欢增长的速度;第四类紫色点(人和博客),2级分化较明显)
(3-5):我们可以观察到,整体视频得到喜欢的容易度要大于得到不喜欢。播放量高的视频,往往是好坏参半,不要轻易进人和博客这个板块,容易被骂。
(4-5):口碑类的视频更容易获得大量的评论,普通类获取的评论较喜欢而言要少一些。
音乐类是最容易获取口碑和view双收的类别;娱乐类视频播放量较大,整体获得的不喜欢较喜欢而言要少,但头部视频还是容易获取更多的不喜欢;人和博客类两级分化明显,做得不好就容易挨骂。
体育类存在一些随着播放量增多不喜欢增多的视频,且有部分视频用户无感;游戏类和宠物类的评论较多。
总结和结论
- 账号定位
- 可以从娱乐,音乐,以及film&animation 三个类型的视频去切入战场。
娱乐账号的上榜视频数量多,占总体上榜视频数的33%,有着非常广泛的受众,是一个很好的切入口。而音乐和film&animation的单个视频的观看量高,他们的平均观看是所有类别的2.54倍和1.29倍。一旦上榜,其播放量客观。
- 切勿轻易踏入人和博客这个领域.
这个领域分化比较严重,好的视频获赞不错,差的视频常常遭到用户的不喜欢。10000个观看中平均有3个dislike,是第二名的1.5倍。
- 电影是比较好的分类,有够强的专业实力可进入
电影的每万人不喜欢率为最低,仅只有0.7个,且单个视频的观看量也非常之高,是所有类别的观看均值的2.48倍。虽然数据很优秀,口碑也非常好,但上榜视频仅仅只有6个,可见其上榜难度很大,够强的专业实力或许能帮你解决问题。
2.内容
- 视频发布时间可选择在下午15点至18点之间。
大多数YouTube博主在此时间段发视频,可能是考虑到往后发布过后的几个小时(5-8点左右),是用户刷youtube的高峰期。
- 视频更新的间隔时间可以为3天。
有91.58%的youtube热门视频在3天之内上了热搜,如果3天内没上热推,那么后面上热推的概率就很小。可以以3天一个频率来发布视频。
- 标签长度和上热门没有关联。