随着新闻出版商与AI公司达成“使用新闻训练AI模型”的协议,像 OpenAI 等科技企业愿意为受版权保护的信息支付的价格逐渐浮出水面。
据 The Information 报道,OpenAI 每年愿意向出版商提供 100万到500万美元来支付受版权保护的新闻文章训练其AI模型。
但即使对于小型新闻出版商来说,这个数额其实很小,这可能会让 OpenAI 难以达成交易。
与此同时,苹果也不甘示弱,最近的一份报告称,苹果正在寻求与媒体公司合作,将内容用于人工智能训练,并在多年内提供至少 5000 万美元来购买数据。
这些数字与一些早期的非人工智能许可交易相似。例如谷歌在2020年宣布将总共投资10亿美元与新闻机构合作。在新法律的压力下,谷歌最近还同意每年向加拿大出版商支付总计 1 亿美元,以换取他们文章的链接。
当今的大语言模型主要是根据互联网信息进行训练的。虽然一些AI公司没有透露它们如何获取训练数据,但明显都少不了使用网络爬虫从互联网获取大量数据。
但目前这种做法现在面临着重大挑战。
一方面,OpenAI 的 GPT 爬虫已被一些媒体公司禁止访问数据,其中包括《纽约时报》和 The Verge 的母公司 Vox Media。
另一方面,一些公司认为对其数据进行爬取训练构成版权侵权。
就在一周前,纽约时报法院起诉OpenAI 和微软侵犯版权!要求销毁 ChatGPT 以及任何其他使用《纽约时报》作品而没有付费的大语言模型和训练集。
该诉讼指控 OpenAI 和微软未经允许利用《纽约时报》数百万篇的受版权保护的数据训练ChatGPT等人工智能模型。更重要的是,诉讼声称 ChatGPT 和 Bing Chat 经常复制《纽约时报》文章的长篇逐字副本。这使得 ChatGPT 用户能够绕过《纽约时报》的付费墙。
良好的合作伙伴关系可以让人工智能公司避免数据版权问题,并且这在过去的一年里已经成为一种很常见的做法。Axel Springer(Business Insider 的母公司)和美联社等出版商已与 OpenAI 签署协议,授权GPT-4 等模型开发新闻采集技术。
OpenAI 和苹果并不是唯一希望与新闻机构合作的人工智能开发商。据报道,谷歌演示了一款名为 Genesis 的AI工具,该工具可以获取事实并向《纽约时报》、《华尔街日报》和《华盛顿邮报》的高管提供新闻报道。与此同时,一些新闻机构在新闻编辑室中使用了生成式AI工具,但结果好坏参半。