Youtube是一个著名视频网站,以下数据集来自kaggle,包含5个国家(DE:德国;FR:法国;CA:加拿大;US:美国;GB:英国;)时下流行榜单上每天大约200个视频。
时下流行榜单上的视频有什么特点呢?根据官方说法:
“时下流行可以让观看者看到 YouTube 和世界各地正在发生的事情。一些时下流行的内容是在意料之中的,如当红音乐人发行的新歌或新电影预告片。另一些则出乎人们的预料,如病毒视频,其目标是挖掘广受各类观看者喜爱的视频,不是个性化的。
时下流行旨在挖掘出具有以下特质的视频:能够吸引各类观看者;不误导、骗点击或耸人听闻;能展现 YouTube 上和世界各地正在发生的多种事情;最好是新奇或出人意料的。
被纳入考虑的标准包括(但不限于):观看次数;观看次数的增长率;观看次数来自哪里(包括 YouTube 以外的观看);视频的新鲜度。
时下流行结合这些标准生成了一个视频列表,这意味着某天中观看次数最多的视频在“时下流行”中可能不会排在第一位,而观看次数较多的视频可能会排在观看次数较少的视频之后。”
通过官方解释可以了解到时下流行类似于视频网站的排行榜,综合考察了反映了视频流行程度、受欢迎的广泛程度和新鲜度等等的指标,不是个性化推荐的结果,而是一个“大杂烩”,榜单希望照顾到到大多数人的喜好。
该数据集包含以下字段:
video_id:视频id
trending_date:榜单日期
title:视频名称
channel_title:频道名
category:视频类别名
category_id :视频类别id
publish_time:发布时间
tags:视频标签
views:观看次数
likes:点赞次数
dislikes:差评数
comment_count:评论数
thumbnail_link:缩略图链接
comments_disabled:能否评论
ratings_disabled:能否评级
video_error_or_removed:视频有没有发生错误
description:视频描述
分析目标为:
- 榜单上视频和频道的集中程度
- 视频的持久度和新鲜度
- 视频的观看和互动情况
- 视频受欢迎的广泛程度
- 视频观看和互动的增长情况
- 观看量相关性分析
导入和处理数据
主要进行下列处理:
- 导入数据,并对数据进行去重
- 将发布日期和榜单日期转换为时间格式
- 计算以下几个字段:
- 视频在不同国家榜单上的出现时长
- 视频从发布到上榜的天数
- 视频出现在几个国家的榜单上
- 视频的点赞率、差评率、点赞差评比例和评论比例
- 视频观看次数、点赞次数、差评数和评论数量的增长量和增长率
PS:一个视频有可能连续出现在榜单上,这样统计的观看次数、点赞次数、差评数和评论数会重复叠加,前四个目标采用的数据集是总数据集去重得到的(只留下每个国家榜单上单个视频最后一天的数据),最后一个目标增长情况会用到整个数据集。
榜单上视频和频道的集中程度
每个国家榜单的视频数和频道数
英国和美国榜单上的视频数和频道数都比其他三个国家少,推测这两个国家有些频道有多个视频上榜,这些频道可能影响力比较大,而且大部分视频在榜单上的持续时间比较长。
每个国家榜单视频的平均观看数、平均点赞数、平均差评数和平均评论数
四幅图的趋势相似,英国的观看数、点赞数、差评数和评论数最高,其次是美国,加拿大、德国、法国依次递减,趋势和每个国家的视频数及频道数相反,视频数越少,该国家视频上榜天数越长,上榜天数越长,相应地观看量越大,点赞数、差评数和评论数也就越大。
每个国家不同种类视频数量
- Entertainment(娱乐)类别在所有国家榜单上的视频数是最多的;人物记录(People & Blogs)、教程类(Howto & Style)、喜剧类(Comedy)和运动(Sports)类别在所有国家榜单上的视频数量位于前列,说明在五个国家中这几类视频比较受欢迎,特别是娱乐类视频。
- 美国和英国榜单上音乐视频数量很多,音乐视频在这两个国家比较受欢迎。
- 美国、法国、德国和加拿大都有较多的新闻政治类视频上榜,这几个国家相较英国可能经常在youtube上看时事新闻,英国视频数量比较多的类别都跟娱乐有关系。
视频的持久度和新鲜度
不同国家视频上榜天数和发布至上榜天数
上图符合先前的推测,确实英国和美国榜单视频的持续天数远远大于其他三个国家,有的视频甚至长达一个月,而且视频从发布到上榜的时间也是比另外三个国家大得多。
视频的观看和互动情况
视频的观看次数大致反映视频受欢迎程度,而点赞、差评和评论反映了观众与视频之间的互动情况。
不同国家视频的点赞率、差评率、点赞差评比例和评论率
- 五个国家的差评率都很低,毕竟上了榜单的视频,经过了数据的初步检验,差评一般来说不会低到哪去。
- 英国和美国的点赞率和评论率都比其他三个国家略低,但是他们点赞差评比例比其他三个国家略高,德国、法国和加拿大对视频的点赞和差评数没美国和英国大,这三个国家对视频的主观感受分化较大,视频评论中的差评比例可能比较大。
视频受欢迎的广泛程度
这里的广泛程度我主要看视频出现过在几个国家的榜单上,每个国家榜单不同,国家之间存在文化等差异,如果一个视频出现在多个国家的榜单上,那么这个视频跨越了这些差异赢得了多个国家观众的喜爱。
有多少视频上了多个国家榜单
可以看到由于地域性的关系,大部分视频都在一个国家的榜单上,只有少数视频出现在两个以上国家的榜单上,极少数视频出现在5个国家的榜单上。
- 视频出现在越多国家的榜单上,观看数、点赞数、差评数和评论数就越多,毕竟受众越广嘛。
- 视频出现在越多国家的榜单上,视频从发布到上榜所花的时间和在榜单上的持续时间更长。
- 对于受众国家少的视频或受众国家多的视频,娱乐、人物记录、运动、喜剧这几类视频数居多。随着视频受众国家增多,音乐及电影和动画类视频的比例增大,音乐类视频比例甚至超过了娱乐类视频比例,同时教程类和新闻政治类视频在减少。娱乐、人物记录、运动、喜剧、音乐、电影类视频都跟娱乐有关系,这些类别可以跨越文化等差异传播更广,受众面更大,而新闻政治类和教程类视频区域性可能比较强,对于新闻政治类每个地区每天发生的事不一样,关注的新闻自然不一样;对于教程类地区,可能更注重时尚的地区穿搭、化妆类教程更受欢迎等。
视频观看和互动的增长情况
不同国家观看、点赞、差评和评论的增长量
不同国家观看、点赞、差评和评论的增长率
- 美国和英国榜单上视频观看次数、点赞数、差评数和评论数每日增长量总体上比其他三个国家小,而且他们的观看量、点赞数、差评数和评论数每日增长率也比其他三个国家小。官方说法中提到观看量是榜单考虑的重要指标之一,可能是因为美国和英国增长比较慢,因此视频从发布到上榜所用的时间更长。
- 德国、法国和加拿大的每日增长率比较分散,说明一部分视频增长快甚至指标在飙升,另一些视频增长就没那么快了。观看增长率也是榜单考虑的因素之一,如果指标是以地区均值作为参考,美国和英国视频虽然增长慢,但是增长速率差别不大,在榜单上能持续更长时间;另外三个国家增长率差别大,视频增长跟不上就下榜,榜单视频更新迭代速度快。
观看量相关性分析
Correlation | views |
---|---|
views | 1.000000 |
likes | 0.758316 |
dislikes | 0.422387 |
comment_count | 0.503879 |
all_trending_days | 0.333775 |
publish_trending_days | 0.007949 |
like_rate | -0.029729 |
dislike_rate | -0.002202 |
like_dislike_rate | -0.018864 |
comment_rate | -0.039321 |
country_count | 0.307132 |
views_growth | 0.616330 |
views_growth_rate | 0.058709 |
likes_growth | 0.442547 |
likes_growth_rate | 0.048366 |
dislikes_growth | 0.290673 |
dislikes_growth_rate | 0.048343 |
comment_count_growth | 0.320955 |
comment_count_growth_rate | 0.021681 |
category_num | 0.028118 |
视频的观看次数与点赞、差评和评论的数量及增长量、在榜单上的持续天数以及所上国家榜单数有很强的正相关性。
结论:
- 美国和英国榜单上视频和频道数量比其他三个国家集中程度高,在榜单上天数也更长。娱乐、音乐、人物记录、教程类、喜剧、运动和新闻政治类视频数比较受大众欢迎,特别是娱乐和音乐类视频。
- 视频出现的国家榜单数越大,观看数、点赞数、差评数和评论数就越多,娱乐、人物记录、运动、喜剧、音乐、电影类视频受众比较广。
- 美国和英国榜单上视频观看次数、点赞数、差评数和评论数每日增长量和增长率比德国、法国和加拿大小,德国、法国和加拿大的每日增长率比较分散。
- 视频的观看次数与点赞、差评和评论的数量及增长量、在榜单上的持续天数以及所上国家榜单数有很强的正相关性。