说起Kpop指标,大家一定会想到音源销量一位还有油管成绩,油管成绩一直是一个表现路人度以及海外影响力的指标。虽然目前知乎风向是觉得这是个粉丝能够操控的鸡肋指标。但我个人觉得这种言论并不完全正确,如果是粉丝指标那么男团应该在这项数据上具有绝对优势,BP和TWICE不应该能取得如此好的油管成绩,所以作者做了一些简单的实验,从一个学生的角度浅谈我对现在youtube浏览量算法的意见。
一部分粉丝指责说youtube成绩已经变味,或者youtube记录根本无意义这种指责是对于这家全球一流的互联网媒体的不信任以及粉丝对于浏览量算法的不理解 造成的。
油管成绩作为kpop文化输出的最直接量化指标,它不仅反映了k-pop占领地球的趋势,也成为了pc人民心中的骄傲。而提到2016年的油管,就必须讲一下三个组合,BTS,Blackpink,Twice。
16年,油管记录似乎变得意外的好破,原因无他,那就是被大棒少时统治的油管榜从1000W到1亿被疯狂的刷新,所有的阵地全部失守,只剩下2亿大关还由大棒把守。
如果说TT 血汗泪时期的千万榜成绩可以叫弹兔盛世,那KK NT时期只能叫血洗榜单,剩下的blackpink虽然没有前两者这么抢眼,但是表现出极强的后劲,甚至有逆行上升的势头。
于是今年大家不免产生了一个共识,油管真是越来越好刷了。
可是事实真的如此吗
我们先从非常业余的角度来看,
也就是说,即使我们默认那种方法(后面我们会详解那种方法基本不可行或者油管认可度很低)可行,也无法刷出评论。
现在来看下各团最多的访问 TT 16000W访问 下面22 W评论 血汗泪 14000W访问 16W评论 boombayah 12000W访问 16W 评论
再看下前辈GD 的fantastic baby 2.8E 15W评论 GEE1.86E 51W评论 call me baby 1.2E 15W评论
好了好了,下面开始进入正文,
前方高能,我们用一个可以很入门的比喻来讲解这个事情,那就是油管的服务器就像是餐厅,我们就像是食客。
经过我三天的研究,我并没有发现youtube用的什么算法。(好吧,我承认我就是个渣渣TT) 油管爹并没有向外公布具体算法的论文。但是我们从15年油管算法的更新可以管中窥豹,由我这个外行人,给大家先讲解一下这些规则。
首先在油管官方公布算法前,我们无从得知具体的算法程序,却可以知道影响算法的变量。感谢ResysChina的youtube推荐算法译文,我们知道了youtube15年改版后,油管将访问停留,会话开始会话结束这个概念引入了计算方法。在这个规则下,只是单纯的点开页面一直刷新显然是行不通的,所以我们之前熟悉的Chrome插件应运而生。简单来说,youtube这个餐厅算你去没去吃过饭,不看你下没下单,而是看你吃了多久,你要吃到一定时间才算吃一次。
其次是ID和IP的问题,除了要看完整个MV才能算一次成功访问外,同一个ID短时间内多次访问一个视频肯定也肯定是无效的,我看到一些贴吧里的讲解说可以删除浏览记录,我对这个做法的科学性是很怀疑的,这就像你去餐厅吃饭,写了一份订单,点了三个菜,然后这个订单是一式两份,你一份厨师一份,删除自己浏览器的cookies记录就如同在自己的订单上划去一个菜一样。
油管的历史记录,其实是从服务器日志上再生成的反馈信息,类似于你从餐厅拿到的收据,认为修改油管的历史记录就能反向修改服务器日志,就像把收据撕了,就可以吃霸王餐一样的理论,那肯定是不可能的。
有同学肯定想问:那游客的流量或者我自己再申请新ID怎么算,这里要讲一下游客的流量,油管也是记录的,不过油管的游客ID,是由IP生成的,从而跟IP相关的。
总之终于讲到了故事的关键,访问者的IP地址
IP地址是什么,其实是互联网分配给你电脑的虚拟地址,这样当你要接入以太网时,是有一个具体的地址可以收发快递的。油管的服务器(server)必须根据你唯一确定的地址来讲包裹发送到的你的电脑。
所以如果你要从理论上刷出50W的浏览量,你必须在完整浏览视频后进行IP地址切换,如果你会比较简单的程序编写,你能写出一个自动填写代理IP的代理服务器,但是问题是去哪里找现成的免费IP地址呢,现在比较可行的办法是搜索即时的代理IP。但是为了防止大量采集,现在的代理IP都用图片。。。所以,总而言之就是很麻烦。我暂时还没摸索出可行的办法,另外除了切换IP还要定时处理cookies.
所以IP切换是件很麻烦的事情,个人觉得现在摸索出来比较可行的反而是用VPN,因为他会随机给你分配新的IP地址,只要设计好定点重连就行了。另外一个是手机刷,因为蜂窝4G网每次用数据连接都会重新分配IP地址。但是这种方法。。自己人工测一台电脑一天顶多刷120-150次,因为时间不匹配,我个人一般设置一个timeslot为10分钟。
然后讲完基础之后,我们其实不难发现,youtube在浏览量方面的算法指标其实是一个综合了了 账户 cookie和 IP地址的综合算法,我个人使用了四个视频做了实验,一个是0浏览量的,一个是20+浏览量,一个是上百浏览量,最后一个是两千浏览量的视频
然而实验结果相当不稳定,同样量级内的标准参量明显随着时间的不同而在发生变化。即像我这种水平的玩家永远搞不清楚某个量级内到底是哪几个参量在作为标准,更搞不清楚参量间的权重关系。
更重要的是,即使我们能在几千以内的样本中破解算法,几千的浏览量跟几千万的浏览量相比始终是小样本,在更大的样本中,更复杂的浏览量审查制度由于变量不可控,我根本无法控制哪些浏览量是计算在内,而哪些没有。
所以这篇文章的结论是,我实名反对,电脑天才一天可以刷50W浏览量的说法。但是,不得不承认,如果粉丝每天都开着电脑把歌曲放进播放列表里重复播放,这些浏览量是不可能被算作一次的,那么肯定就会有重复计入浏览量的有效播放次数。
随着信息时代的不断进步,防弹跟twice的油管记录被新团打破是一个必然的趋势。五年前,我想要看我喜欢的mv我只能回家打开电脑,而如今,无论我是上班还是上学,只要我想,我可以从手机移动端,和平板电脑端任意的连接到youtube。这种技术带来的变化决定了从未来的趋势来看,销量的存在感会继续降低,数字音源和youtube等新式媒体的数据会是对人气愈发重要的体现。
但不得不提的是,油管官方作为一家互联网视频公司对于浏览量算法的精心设置,对于算法的不断更新,保证了其数据在一定层面上的公信度。但如果要作为更重要的指标,油管公司首先需要公布一部分的算法程序从而让公众知道并信服审查的指标有哪些,二是在以下两方面1.如何甄别粉丝和路人2.如何防止粉丝使用IP切换刷浏览量,youtube还需继续努力。
下面五图分别是2016自然年全年 bigbang, girl‘s generation,twice,blackpink和bts在油管上官方公布的相关数据,有兴趣的同学可以自己转https://artists.youtube.com/
最后是分享一下我作死的project,从twitter上扒数据,因为没有切换IP,被twitter把我们整个寝室的IP都给封了。。。(我在香港上学)这是当年年少无知从twitter下载流数据写的一小部分,后来发现twitter数据集是公开的,求多少只草泥马奔过。。。def on_data(self, data): try: with open(‘python.json’, ‘a’) as f: f.write(data) return True except BaseException as e: print(“Error on_data: %s” % str(e)) return True def on_error(self, status): print(status) return True twitter_stream = Stream(auth, MyListener())twitter_stream.filter(track=[‘#python’])