Anthropic 的 Project Panama:AI 训练数据的获取之战

在人工智能领域,数据是构建和训练高级 AI 模型的关键。2024年初,人工智能初创公司 Anthropic 启动了一项名为 Project Panama 的雄心勃勃计划,旨在大规模获取书籍数据以训练其 AI 模型。然而,这一计划在法律上引起了争议,并最终导致了与图书作者之间的版权诉讼。

Project Panama 的细节

Project Panama 涉及对全球所有书籍进行破坏性扫描,试图获取尽可能多的文本数据。这一计划在一份内部规划文件中被描述为:“我们破坏性扫描全世界所有书籍的努力。”尽管 Anthropic 试图保密,但该计划在图书作者对该公司提起的版权诉讼中曝光,超过4000页的文件揭示了这一计划的细节。

在诉讼中,Anthropic 联合创始人本·曼恩被披露在2021年6月11天内,从名为 LibGen 的“影子图书馆”下载了大量小说和非虚构书籍,其中包括侵权内容。此外,公司还考虑从图书馆或二手书店购买书籍,例如纽约的 Strand 书店,以其“18英里”新旧书籍闻名。

法律挑战与和解

Anthropic 的行为引起了法律问题,特别是在版权方面。地区法官上周决定解封案件中的大量文件,进一步揭示了 Anthropic 对图书的热忱追求。尽管该案已和解,但法院的裁决依然有效,Alsup 法官认为人工智能训练具有本质的变革性,AI 模型并非复制或取代它们,而是为了转折,创造出不同的东西。

其他公司的类似行为

Anthropic 不仅仅是一个案例。Meta、谷歌和 OpenAI 等其他科技公司也为了获取海量数据来训练其软件而付出了巨大努力。在针对 Meta 的版权诉讼中,这家社交网络巨头也被指控非法分发盗版书籍,尽管其高层曾考虑付费购买书籍以训练 AI 模型,但最终选择了从促进网络盗版的“种子”平台免费下载数百万本书籍。

结论

Project Panama 揭示了人工智能行业在获取训练数据方面的激烈竞争和道德挑战。尽管 AI 技术的发展带来了许多好处,但如何合法且合乎道德地获取和使用数据仍然是一个关键问题。随着技术的进步,预计未来将会有更多关于数据获取和版权的讨论和争议。

标签: none

评论已关闭