人工智能合理使用决定对半导体行业来说是个好兆头

作者：时间：2025-08-28 来源：

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

最近，在两起挑战大型语言模型（LLM）训练的版权侵权诉讼中，被告根据合理使用对被告做出了简易判决，其中一项针对 Meta 的 Llama LLM，[1]，另一项针对 Anthropic 的 Claude LLM。[2] 这些决定预示着生成式人工智能行业的持续发展，因此，对于半导体行业来说也是如此，该行业正在构建生成式人工智能技术堆栈的基础设施和更高层。

在这两种情况下，作者都对未经授权下载其受版权保护的作品以及将其复制和用于培训法学硕士提出质疑，在 Anthropic 的案例中，还对创建通用数字图书馆提出了质疑。这两起案件都不涉及对法学硕士产出的挑战。

法学硕士培训

法学硕士的训练涉及使用大量文本（包括克劳德和骆驼的数百万本书），这些文本在一个多步骤的过程中被复制，从每个文本开始，每个文本都被翻译成简短的单词序列和标点符号，称为“标记”，这是执行训练的单位。然后，训练涉及使用统计语言模型从这些“标记化”文本中学习模式，包括根据前一个单词的上下文预测序列中的下一个单词，然后重复该过程。将预测与原始预测进行比较，并相应地调整统计模型，以便下次更有可能正确预测。统计语言模型通过使用“向量”来运行，“向量”是一种多维矩阵，可以捕获不同单词、语法模式或故事主题的相关性（称为“权重”）。在一般层面上，Anthropic 法院将训练描述为使用作者的作品来“迭代地映射每个文本片段和每个文本片段序列之间的统计关系，以便完成的法学硕士可以接收新的文本输入并返回新的文本输出，就好像它是人类阅读提示和写作响应一样。

版权法和合理使用

（1）使用目的和性质，包括此类使用是商业性质还是用于非营利性教育目的;

（2）受版权保护的作品的性质;

（3）与整个受版权保护的作品相关的部分的数量和实质性;和

（4）使用对受版权保护作品的潜在市场或价值的影响。

合理使用是一种整体应用的肯定性辩护，被描述为“公平的理性规则”。[3]法院通常认为第一个和第四个因素是最重要的，其中第四个因素尤为重要。

人类的决定

Anthropic 使用的材料包括从盗版来源下载的数百万本书籍，以及 Anthropic 购买并扫描成带有机器可读文本的数字形式的数百万本印刷书籍。这既是为了创建一个通用研究图书馆以供将来使用，也是为了培训克劳德。

Alsup 法官将他的分析分为使用书籍培训法学硕士和使用书籍建造中央图书馆。他认为，无论是用于培训还是将购买的书籍数字化建设中央图书馆都属于合理使用，但使用盗版书籍建设中央图书馆则不属于合理使用。他明确表示，简易判决不会扩展到未来从中央图书馆制作的未用于培训法学硕士的副本。

关于第一个因素，Alsup 法官认为，使用受版权保护的作品来训练法学硕士生成新文本的目的和特征是“典型的变革性”。其用途不仅仅是记住和复制它所训练的作品，而是“就像一个渴望成为作家的读者一样”向他们学习并创造不同的东西。因此，第一个因素有利于培训副本的合理使用。

关于用于建造中央图书馆的副本，Alsup 法官将他的分析分为盗版副本和 Anthropic 购买印刷品然后进行数字转换的副本。他认为，后一组有利于存储和可搜索性，并且不会导致与第三方共享新副本，具有变革性。另一方面，Alsup 法官认为，盗版作品的使用“本质上是不可挽回的侵权”，用于建立研究图书馆并不具有变革性。Alsup 法官区分了其他判决，包括无法购买或借阅副本、副本被转换为明显不同的形式或被告已经拥有授权副本。

阿尔苏普法官认为，第二个因素——受版权保护的作品的性质——不利于合理使用，因为有争议的作品涉及表达性内容，这些内容比事实作品受到版权法的更大保护。

Alsup 法官认为，第三个因素——所用作品的数量和实质性——涉及评估受版权保护材料的数量与复制目的是否合理。分析的关键不在于复制了多少文本，而在于有多少文本可供公众访问。关于培训，Alsup法官认为，虽然使用了整本书，但没有指控该材料作为产出提供给公众。他发现第三个因素有利于合理使用训练，因为 Anthropic 合理地需要大量数据来训练其法学硕士。关于建造中央图书馆，Alsup 法官认为，第三个因素有利于合理使用购买的副本，但反对合理使用盗版副本，因为 Anthropic 根本无权持有它们。

Alsup 法官认为，第四个因素——市场稀释——也有利于在培训法学硕士方面合理使用。他认为，第四个因素侧重于被质疑的使用在多大程度上作为受版权保护作品的实际或潜在市场替代品。Alsup 法官指出，作者承认法学硕士没有制作作者作品的精确副本或侵权仿冒品。相反，作者认为法学硕士将“导致与他们的作品竞争的作品爆炸式增长”。阿尔苏普法官将原告的论点类比为“训练学童写得好”也会导致竞争作品爆炸式增长的投诉，并认为这“不是与《版权法》有关的那种竞争或创造性的取代。该法案旨在推进原创作品的作者身份，而不是保护作者免受竞争“（引用 Sega Enterprises Ltd. v. Accolade， Inc.， 977 F.2d 1510， 1523-24 （9th Cir. 1992））。Alsup 法官还驳回了原告的论点，即培训法学硕士会损害新兴市场许可培训法学硕士的工作，认为《版权法》不赋予原告开发这样一个可能发展的市场的权利。

Alsup 法官认为，第四个因素对于已转换为数字形式的购买图书馆副本是中立的，并指出盗版作品的合理使用是中立的，因为盗版“明显取代了对原告书籍的需求”。

Alsup 法官权衡了所有因素，因此批准了 Anthropic 就合法购买的用于建立数字图书馆的培训副本和书籍的合理使用问题进行简易判决的动议，但驳回了 Anthropic 对盗版副本的简易判决，将决定保留审判。

元决策

Meta 的决定涉及 13 名作者对 Meta 提起诉讼，指控 Meta 从所谓的盗版作品“影子库”下载他们的作品，并使用它们来训练 Meta 的法学硕士。这两个决定之间的一个关键区别是 Chhabria 法官对第四个因素的主要权重，以及他在冗长的格言中表达的观点，即在许多情况下，法学硕士的行为可能无法通过合理使用测试，因为法学硕士经常“极大地破坏”他们训练的材料的市场。例如，Chhabria 法官推测，一个能够制作无穷无尽的关于如何照顾花园的书籍的法学硕士可能会大大减少人类创作的花园书籍的市场。他表示，阿尔索普法官的 Anthropic 判决过于关注生成式人工智能的变革性质（合理使用分析中的第一个因素），“同时忽略了对它可能对其接受训练的作品对市场造成的伤害的担忧”（第四个因素）。因此，Chhabria 法官似乎支持基于世嘉的市场稀释论点，Alsop 法官断然拒绝了这一论点。美国版权局最近在其 2025 年 5 月的报告《版权与人工智能》中也支持了这一理论，尽管承认了“未知领域”。Chhabria 法官提出了一些与市场稀释分析有关的问题，包括 Llama 是否有能力生成书籍，如果是，什么类型的书籍，它会对竞争产生什么影响，以及 Llama 可以使用他们的书籍进行培训与无法使用它们对原告书籍市场的影响。

两位法官都驳回了关于第四个因素的另一个论点，即未经授权的法学硕士培训损害了法学硕士培训书籍许可市场。两家法院都认为，这不是《版权法》赋予原告开拓权的市场类型。

关于第一个因素，Chhabria 法官最终也同意 LLM 的使用具有变革性，这是发现第一个因素有利于合理使用的关键。但查布里亚法官在分析是否应将法学硕士培训作为唯一的“用途”方面采取了与阿尔苏普法官不同的方法。Chhabria 法官驳回了原告试图将分析分为 Meta 下载书籍和将书籍用于 LLM 培训的尝试，并表示必须根据 LLM 培训的最终目的来考虑下载。Alsup 法官允许进行分叉分析，尽管是关于建立图书馆，而不是简单地下载。使用这种分叉方法，Alsup 法官认为，在图书馆中使用盗版作品与合理使用相悖。另一方面，Chhabria 法官只是在他的单一分析中考虑了影子库的使用，并驳回了其重要性。Chhabria 法官认为，虽然它与恶意问题有关，并且如果 Meta 的下载是点对点文件共享的一部分，有助于使影子库永久化，那么可能会产生重大影响，但这里的情况并非如此。

对法学硕士的未来发展有何影响？

人们清楚地认识到法学硕士的重大变革性，这是有利于合理使用的重要因素。未来决策的一个弱点是查布里亚法官对市场稀释测试的认可。但应根据他提出的相关问题来考虑这一赞同。重要的是，这是一个在很大程度上取决于市场性质的调查。（目前）可以肯定地猜测，大多数 LLM 用户并没有写小说，因此竞争性的、LLM 生成的小说的“爆炸式增长”最终可能更多的是一个理论问题。但对于其他作品，例如新闻文章、传记和其他可以由法学硕士快速集体制作的非小说类作品，查布里亚法官表示，可能存在市场稀释问题。查布里亚法官的格言也适用于基于文本的作品之外。例如，对特定词曲作者目录进行法学硕士培训可能会产生稀释该艺术家的音乐或与该艺术家独特相关的任何流派的市场的作品，从而抑制该艺术家和其他人继续在该领域创作音乐的积极性。如果市场稀释理论获得司法支持，适当的护栏可以限制市场稀释索赔的风险敞口。

这些决定的另一个要点是，应避免在培训中使用盗版作品。在《Anthropic》中，这些书籍被盗版的事实严重影响了合理使用。在 Meta 案中，Chhabria 法官还保留了盗版作品的使用可能与合理使用分析相关的可能性。

第三个要点是，在这两个决定中，重要的是法学硕士不能从培训材料中复制超过非常短的段落。因此，法学硕士应继续设置护栏，防止大量培训材料的记忆和反刍。例如，Chhabria 法官的裁决强调了 Llama 如何配置为从任何给定的训练源返回不超过 50 个单词。

与此相关的一点是，这些案件不涉及产出。因此，这些决定没有解决法学硕士未经授权制作受版权保护作品的复制品的情况，无论是通过生成过程还是记忆。

如上所述，这些决定并没有提供令人信服的理由来阻止生成式人工智能行业，市场似乎也没有这样看待它们。持续增长将推动对支持这一增长所需的半导体产品的进一步需求。此外，即使在未来的案件中发现版权侵权，考虑到可用的抗辩理由，例如基于非侵权用途的抗辩理由，芯片制造商承担次要责任的风险似乎微不足道。