AI 繁荣的背面，硅谷巨头正在“侵吞”你的数据；超 100 万小时油管视频被 OpenAI “拿去”训练 GPT

近日，外媒报道了 OpenAI 在开发最新模型遇到困难，研究人员通过 Whisper 语音模型转录了超 100 万小时的 Youtube 视频来训练 GPT-4 模型。

据悉，一些 OpenAI 员工讨论此举可能违反 YouTube 的规则，因为 Google 旗下的 YouTube 禁止将其视频用于“独立”于 Youtube 平台的第三方 App。尽管存在这种担忧，OpenAI 团队最终转录了超过 100 万小时的 YouTube 视频，而这项工作包括了 OpenAI 总裁 Greg Brockman 的直接参与，他亲自帮助收集了这些视频。

此外，OpenAI 在 2021 年就已经耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物，并在那时就已经用数据训练了模型，这些数据包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。

调查显示，为了获取这些数据，包括 OpenAI、Google 以及 Meta 在内的科技公司纷纷走捷径，无视公司政策，并讨论违反法律。例如，Meta 公司的经理、律师和工程师去年讨论了收购 Simon & Schuster 出版社以获取长篇作品的可能性，他们还决定从互联网上收集受版权保护的数据，即使这意味着面临诉讼风险。

YouTube 于上周四表示，如果 OpenAI 在未经许可的情况下使用其视频来开发人工智能视频生成器 Sora，将违反 YouTube 的规则。YouTube CEO Neal Mohan 在接受彭博社采访时表示，Google 可能已经使用 YouTube 数据来训练其旗舰对话 AI 模型 Gemini，以符合其与内容创作者签订的许可合同，而 OpenAI CTO Mira Murati 3 月在接受采访时表示她不知道 Sora 是否接受过 YouTube 视频训练。

理论物理学家 Jared Kaplan 在 2020 年发表的一篇具有开创性的论文强调了大量数据对训练 LLM 性能的重要性。OpenAI 和其他公司正在探索如何使用两个不同的 AI 模型合作生成更有用、更可靠的合成数据，以克服数据短缺的挑战。

OpenAI 发言人 Lindsay Held 在一封电子邮件中表示，OpenAI 为其每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力，OpenAI 使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。

Meta 同样也遇到了训练数据可用性限制，其 AI 团队讨论了在努力追赶 OpenAI 的过程中未经许可使用版权作品的情况。Meta 在浏览了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后，考虑采取一些措施，例如支付图书许可费用，甚至直接收购一家大型出版商。在剑桥分析丑闻发生后，Meta 做出了以隐私为中心的变革，因此它使用消费者数据的方式显然也受到了限制。

从互联网上公开抓取大量数据来训练 AI 模型的做法仍然引发了一波版权诉讼和监管压力，同时促使一些媒体网站通过添加代码以阻止抓取。反过来，科技公司也在通过一系列数据交易来避免法律以及道德的影响。例如，通过与内容所有者的交易以及为满足需求而出现的数据经纪人行业的兴起来保障数据供应链。

在 ChatGPT 上线后的几个月内，包括 Meta、Google、Amazon 以及 Apple 在内的科技巨头都与股票图片提供商 Shutterstock 达成了协议，使用其图库中的数亿张图片、视频和音乐文件进行训练。

据悉，与这些大型科技公司的交易最初范围在 2500～5000 万美元之间。Shutterstock CFO Jarrod Yahes 表示，小型科技公司也紧随其后。

Shutterstock 的竞争对手 Freepik 也已经与两家大型科技公司达成了协议，以 2～4 美分每张图片的价格授权其 2 亿张图片档案的大部分，而 CEO Joaquin Cuenca Abela 表示，还有五笔类似的交易在进行中。

OpenAI 也已经与至少四家新闻组织签订了许可协议，包括 The Associated Press 和 Axel Springer 以及 Thomson Reuters。

除此之外，还有 Photobucket 这样曾在 2000 年初达到高峰 7000 万用户，而至今却不到 200 万用户的托管平台，由于生成式 AI 到来，而获得新的机会。

Photobucket CEO 目前正在与多家海外科技公司进行谈判，通过授权 Photobucket 130 亿张照片和视频用于训练生成式 AI 模型，这些模型可以响应文本提示产生新内容，每张照片 0.5～1 美元，每个视频超过 1 美元的费率，价格根据买家和所求的图像类型而有很大差异。

目前，这个领域仍然是一个灰色市场，涉及从聊天日志到早已被遗忘的个人照片，以及如今衰落的社交媒体应用，硅谷的科技巨头们正在悄悄购买这些“Loggin In”登陆框背后的隐秘数据。

Reference：

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb

https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

https://www.theinformation.com/briefings/youtube-says-openais-use-of-its-videos-would-violate-terms?rc=z9mejq

Newin 行业交流群

最新活动

1、AWS 亚马逊云科技将在 2024 年 4 月 17 日下午在杭州举办“大模型电商行业解决方案闭门路演”活动，特邀 AIGC 电商领域初创公司的小伙伴前来参与，招募对象不限融资背景和轮次，产品/服务正在或者有潜力面向电商行业均可报名。

例如，Akool 是一家 2022 年在硅谷成立电商领域 AIGC 初创公司，专门为广告、品牌和电商用户生成营销内容。2023年年中，Akool 与可口可乐公司达成合作，利用生成式 AI 技术为其用于新款饮品宣传的交互式广告提供了底层支持截止。 2023 年底，Akool 已突破百万注册用户，服务多家世界 500 强企业。

在项目早期，Akool 通过参与 AWS 创业加速器得以用更低的前期成本更快地在云上创建、测试和部署生成式 AI 应用程序。在 AI 业务领域，Akool 利用 Amazon EC2 G5 实例来处理庞大的计算负荷，并采用 Amazon SageMaker 来构建、训练、优化机器学习算法。基于 NVIDIA GPU 的 G5 实例非常适合于处理机器学习推理和图形密集型计算，加快了内容生成过程，同时最大限度地减少了运营支出，让 Akool 能够在不牺牲性能的情况下大幅提升效率，减少了20%用户排队情况，满足用户多样化的 AI 内容创作需求。

下方小程序扫码报名：

2、报名方式请点击下方海报：

最新资讯