不久前,OpenAI用一款号称“世界模拟器”的文生视频大模型Sora秀了把肌肉,再次向外界证明它依旧还是AI这个赛道的领跑者。不过就在最近,Sora却似乎让OpenAI陷入了麻烦中。日前,《华尔街日报》和《纽约时报》先后报道了AI公司在收集高质量训练数据上遇到困难,其中特别是正与OpenAI打官司的《纽约时报》更是直接点明了,OpenAI采集了超一百万小时的YouTube视频来训练GPT-4。

紧接着,谷歌公司发言人Matt Bryant表示,“我们的robots.txt文件和服务条款都禁止未经授权的抓取或下载YouTube内容”。YouTube CEO尼尔・莫汉更是在接受彭博社采访时表示,尽管没有直接证据表明OpenAI使用了YouTube视频来训练Sora,但他警告称这种行为违反了YouTube现行的服务条款。事实上,YouTube CEO如此含沙射影不仅是针对《纽约时报》的报道,更是讽刺OpenAI CTO米拉·穆拉蒂无法明确Sora训练数据的来源。

此前米拉·穆拉蒂在被《华尔街日报》记者问及Sora训练数据的来源时,所使用的表述是,“我实际上并不确定(I'm actually not sure about that)”。甚至于在被问及OpenAI是否使用图片素材平台Shutterstock的数据时,这位OpenAI的CTO都在回避问题。要知道,Shutterstock与OpenAI早在2021年就达成了合作, 允许OpenAI使用该平台的图片、视频、音乐来训练AI模型,并且为了安抚艺术家,Shutterstock更是曾出钱补偿了作品被OpenAI使用的艺术家。

米拉·穆拉蒂这般灾难性的发言,直接引爆了外界对于OpenAI缺乏透明度和不合规数据抓取行为的质疑。事实上,OpenAI目前确实面临着缺乏“公开、且经过许可”数据的窘境。

根据《纽约时报》的相关报道显示,OpenAI在2021年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物的可行性。甚至OpenAI内部确实知道使用YouTube平台的内容会存在法律问题,但认为这是合理使用,OpenAI总裁Greg Brockman更是亲自参与了所使用视频内容的收集。

然而“公开的数据”并不等于“公开数据”,尽管有相当多的数据确实公开发布在互联网上,但这并不等于这些数据的主人就愿意无偿共享。那么有哪些直接暴露在互联网上的数据是可以毫无顾忌地使用呢?OpenAI训练ChatGPT就是合规利用互联网公开数据的正面典型。据悉,OpenAI用到了Common Crawl、维基百科、美国专利文件数据库,其中维基百科是最知名的开源软件项目之一,而Common Crawl也是一个抓取互联网、并提供数据开源下载的开源数据库。

维护这些公开数据源的人几乎都是以开放、平等、协作、共享为代表的互联网精神的信徒,只是随着整个互联网行业越来越商业化,这样的互联网精神也在逐渐凋零,以至于类似维基百科这样的项目如今已屈指可数。当愿意免费分享数据的组织不再能满足OpenAI的胃口时,付费购买数据其实也是一条出路。但问题是OpenAI的出价打动不了版权方,目前愿意向其出售数据的版权方并不多。

以媒体为代表的版权方通常希望将数据卖个高价,因为从目前ChatGPT、GPT-4、Sora等大模型表现出的能力,它们最先替代的可能不是理科生、而是文科生,诸如AI写新闻、AI作画、AI生成视频也几乎都是在掏空媒体的根基。事实上,版权方不是不接受出卖绞死自己的绞绳,但OpenAI方面每年100万至500万美元的价码显然不够有诚意。可OpenAI实际上也给不出太高的价格,因为他们需要的数据实在太多,数据采购的预算尽管可能很多,但摊薄到每一家头上就只有不到500万美元了。

如此一来,OpenAI会以合理使用为借口,做出抓取YouTube视频内容的操作也就不足为奇了。事实上,自互联网行业蓬勃发展以来,数据爬取就一直处于灰色地带。或者说“天下乌鸦一般黑”,几乎就没有互联网厂商在数据收集这件事上是完全无懈可击的。比如,搜索引擎爬虫机器人互相爬取数据早已是公开的潜规则,可版权方对待搜索引擎和对待AI大模型则完全是两幅面孔。

robots协议这样一个“君子协定”为何能长期存在,并且网站还会专门进行SEO、给搜索引擎的爬虫优化可访问的内容和结构呢?还不是因为搜索引擎对于网站而言是有益的,会为网站带来了流量,而有了流量就能卖广告或是用其他方式变现。

所以双赢就是搜索引擎孜孜不倦爬取数据,却没有让版权方沸反盈天的原因。可反观AI大模型却几乎是不存在利他性的,OpenAI拿走数据也只会让自己的估值更高,ChatGPT Plus赚的钱也没看到分给YouTuber一美分。

从某种意义上来说,OpenAI这次被推上风口浪尖,其实从侧面也表明了这家AI独角兽同样存在缺陷,也就是数据严重依赖外界供给。随着各大厂商都陆续下场做AI大模型,OpenAI就会面临着一个无可避免的问题,那就是他们没有自己的内容平台,甚至内容平台全都是友商旗下的。

而且即使微软想要给OpenAI提供数据也不容易,因为随着现阶段越来越多用户对于个人隐私的重视程度提升,几乎所有的用户协议中都会写明,“我们获取你的信息是为了更好地服务你,对这些信息我们承诺不会与第三方共享”。

此前没有拿出ChatGPT的OpenAI尚且还可以“偷偷发育”,可现在的OpenAI早已处于舞台中心,所以留给他们闪转腾挪的空间自然也就越来越小了。

【本文图片来自网络】

推荐阅读:
偏科、但更加多彩的市场,显然将会更有意思。
互联网厂商无动于衷的原因,就出在了“触动利益比触动灵魂还难”上。