报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

作者：时间：2024-04-08 来源：IT之家

4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到属于 AI 版权法模糊灰色区域的内容。

报道称，OpenAI 迫切需要训练数据，并开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。

报道提到，OpenAI在 2021 年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外，OpenAI 使用了包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。

据报道，OpenAI公司知道这在法律上存在问题，但认为这是合理使用。《泰晤士报》则透露，OpenAI 总裁 Greg Brockman 亲自参与了所使用视频的收集。

OpenAI 发言人 Lindsay Held 在一封电子邮件中告诉 The Verge，该公司为其每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力。Held 补充说，该公司使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。

谷歌发言人 Matt Bryant 在一封电子邮件中表示，该公司“看到了有关 OpenAI 活动的未经证实的报告”，并补充说“我们的 robots.txt 文件（注：网站与爬虫间的君子协定）和服务条款都禁止未经授权的抓取或下载 YouTube 内容”。

YouTube 首席执行官 Neal Mohan 近日在采访中公开表示，尽管没有直接证据表明 OpenAI 使用 YouTube 视频来训练 Sora（文本生成视频的 AI 模型），但警告称这种行为违反了 YouTube 现行的平台服务条款。

Meta 同样也遇到了数据可用性的限制，在《泰晤士报》听到的录音中，Meta 的AI 团队为了努力追赶 OpenAI，讨论了未经许可使用版权作品的情况。该公司在浏览了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后，显然考虑采取一些措施，例如支付图书许可费用，甚至直接收购一家大型出版商。

新闻中心