Sora训练数据来源YouTube？OpenAI化身“数据小偷”

不久前，OpenAI用一款号称“世界模拟器”的文生视频大模型Sora秀了把肌肉，再次向外界证明它依旧还是AI这个赛道的领跑者。不过就在最近，Sora却似乎让OpenAI陷入了麻烦中。日前，《华尔街日报》和《纽约时报》先后报道了AI公司在收集高质量训练数据上遇到困难，其中特别是正与OpenAI打官司的《纽约时报》更是直接点明了，OpenAI采集了超一百万小时的YouTube视频来训练GPT-4。

紧接着，谷歌公司发言人Matt Bryant表示，“我们的robots.txt文件和服务条款都禁止未经授权的抓取或下载YouTube内容”。YouTube CEO尼尔・莫汉更是在接受彭博社采访时表示，尽管没有直接证据表明OpenAI使用了YouTube视频来训练Sora，但他警告称这种行为违反了YouTube现行的服务条款。事实上，YouTube CEO如此含沙射影不仅是针对《纽约时报》的报道，更是讽刺OpenAI CTO米拉·穆拉蒂无法明确Sora训练数据的来源。

此前米拉·穆拉蒂在被《华尔街日报》记者问及Sora训练数据的来源时，所使用的表述是，“我实际上并不确定（I'm actually not sure about that）”。甚至于在被问及OpenAI是否使用图片素材平台Shutterstock的数据时，这位OpenAI的CTO都在回避问题。要知道，Shutterstock与OpenAI早在2021年就达成了合作，允许OpenAI使用该平台的图片、视频、音乐来训练AI模型，并且为了安抚艺术家，Shutterstock更是曾出钱补偿了作品被OpenAI使用的艺术家。

米拉·穆拉蒂这般灾难性的发言，直接引爆了外界对于OpenAI缺乏透明度和不合规数据抓取行为的质疑。事实上，OpenAI目前确实面临着缺乏“公开、且经过许可”数据的窘境。

根据《纽约时报》的相关报道显示，OpenAI在2021年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物的可行性。甚至OpenAI内部确实知道使用YouTube平台的内容会存在法律问题，但认为这是合理使用，OpenAI总裁Greg Brockman更是亲自参与了所使用视频内容的收集。

然而“公开的数据”并不等于“公开数据”，尽管有相当多的数据确实公开发布在互联网上，但这并不等于这些数据的主人就愿意无偿共享。那么有哪些直接暴露在互联网上的数据是可以毫无顾忌地使用呢？OpenAI训练ChatGPT就是合规利用互联网公开数据的正面典型。据悉，OpenAI用到了Common Crawl、维基百科、美国专利文件数据库，其中维基百科是最知名的开源软件项目之一，而Common Crawl也是一个抓取互联网、并提供数据开源下载的开源数据库。

维护这些公开数据源的人几乎都是以开放、平等、协作、共享为代表的互联网精神的信徒，只是随着整个互联网行业越来越商业化，这样的互联网精神也在逐渐凋零，以至于类似维基百科这样的项目如今已屈指可数。当愿意免费分享数据的组织不再能满足OpenAI的胃口时，付费购买数据其实也是一条出路。但问题是OpenAI的出价打动不了版权方，目前愿意向其出售数据的版权方并不多。

以媒体为代表的版权方通常希望将数据卖个高价，因为从目前ChatGPT、GPT-4、Sora等大模型表现出的能力，它们最先替代的可能不是理科生、而是文科生，诸如AI写新闻、AI作画、AI生成视频也几乎都是在掏空媒体的根基。事实上，版权方不是不接受出卖绞死自己的绞绳，但OpenAI方面每年100万至500万美元的价码显然不够有诚意。可OpenAI实际上也给不出太高的价格，因为他们需要的数据实在太多，数据采购的预算尽管可能很多，但摊薄到每一家头上就只有不到500万美元了。

如此一来，OpenAI会以合理使用为借口，做出抓取YouTube视频内容的操作也就不足为奇了。事实上，自互联网行业蓬勃发展以来，数据爬取就一直处于灰色地带。或者说“天下乌鸦一般黑”，几乎就没有互联网厂商在数据收集这件事上是完全无懈可击的。比如，搜索引擎爬虫机器人互相爬取数据早已是公开的潜规则，可版权方对待搜索引擎和对待AI大模型则完全是两幅面孔。

robots协议这样一个“君子协定”为何能长期存在，并且网站还会专门进行SEO、给搜索引擎的爬虫优化可访问的内容和结构呢？还不是因为搜索引擎对于网站而言是有益的，会为网站带来了流量，而有了流量就能卖广告或是用其他方式变现。

所以双赢就是搜索引擎孜孜不倦爬取数据，却没有让版权方沸反盈天的原因。可反观AI大模型却几乎是不存在利他性的，OpenAI拿走数据也只会让自己的估值更高，ChatGPT Plus赚的钱也没看到分给YouTuber一美分。

从某种意义上来说，OpenAI这次被推上风口浪尖，其实从侧面也表明了这家AI独角兽同样存在缺陷，也就是数据严重依赖外界供给。随着各大厂商都陆续下场做AI大模型，OpenAI就会面临着一个无可避免的问题，那就是他们没有自己的内容平台，甚至内容平台全都是友商旗下的。

而且即使微软想要给OpenAI提供数据也不容易，因为随着现阶段越来越多用户对于个人隐私的重视程度提升，几乎所有的用户协议中都会写明，“我们获取你的信息是为了更好地服务你，对这些信息我们承诺不会与第三方共享”。

此前没有拿出ChatGPT的OpenAI尚且还可以“偷偷发育”，可现在的OpenAI早已处于舞台中心，所以留给他们闪转腾挪的空间自然也就越来越小了。

【本文图片来自网络】

推荐阅读：

偏科、但更加多彩的市场，显然将会更有意思。

互联网厂商无动于衷的原因，就出在了“触动利益比触动灵魂还难”上。