AI 训练数据版权战进入证据阶段:OpenAI 被令交出两千万条 ChatGPT 日志,英国 Getty 案进入上诉

围绕生成式 AI 训练数据合法性的诉讼,自 2025 年下半年起密集进入证据开示与一审判决阶段。最受关注的两条线分别在美国和英国推进:纽约南区联邦法院命令 OpenAI 向新闻出版方交出 2000 万条 ChatGPT 用户对话日志样本,英国高等法院则就 Getty Images 起诉 Stability AI 一案作出首次判决,并随后批准 Getty 的上诉申请。
这两条线的共同点是:争议焦点已不再是 AI 公司是否爬取了受版权保护的素材,而是「爬取并训练」这一动作在现行法律框架下如何定性,以及训练后模型的输出在多大程度上替代了原作市场。
在美国,多起针对 OpenAI 的版权诉讼已被合并为多区诉讼(MDL)「In re: OpenAI, Inc. Copyright Infringement Litigation」,由纽约南区联邦法院审理。2025 年 11 月,治安法官 Ona T. Wang 裁定 OpenAI 须向原告方交出 2000 万条经去标识化处理的 ChatGPT 用户对话日志样本。OpenAI 仅愿意交出与原告作品直接相关的对话子集,被法院驳回。Wang 法官认为,即便是不含原告作品复制片段的输出日志,也对评估 OpenAI 援引的「合理使用」抗辩有意义——它能反映 ChatGPT 输出与版权作品市场之间的替代关系。

2026 年 1 月 5 日,地区法官 Sidney Stein 在动议复议中维持 Wang 法官的裁定。Stein 在裁定中承认 ChatGPT 用户对其对话内容存在「真诚」的隐私利益,但认为该利益已通过三重保护得到充分缓解:样本量从原本数百亿条压缩至 2000 万条、OpenAI 自身的去标识化流程移除了可识别个人信息,以及现有保护令对开示材料的处置约束。Stein 还援引一项关键区分:与窃听对象不同,ChatGPT 用户「自愿向 OpenAI 提交了通信内容」,因此其隐私期待无法等同于受第四修正案保护的私人通讯。
彭博法律(Bloomberg Law)和《国家法律评论》(National Law Review)报道这一裁定时均强调,2000 万条对话进入开示程序,可能为「ChatGPT 输出是否系统性替代了原告作品」这一关键事实问题提供首次大规模证据。多家律所在分析中指出,关于本轮版权诉讼中合理使用抗辩的简易判决(summary judgment),最早预计要等到 2026 年夏季。
英国一线则在 2025 年 11 月 4 日给出首份实体判决。Getty Images 起诉 Stability AI 一案在英国高等法院(English High Court)由 Joanna Smith 法官审理,案号 [2025] EWHC 2863 (Ch)。Getty 的核心诉求是认定 Stable Diffusion 的模型权重本身构成「侵权复制品」(infringing copy),从而触发英国版权法下的「次级侵权」(secondary infringement)。法院驳回了这一诉求,认定模型权重虽然由包含 Getty 图片的数据集训练而成,但其本身并不存储原作。
Comments
0Sign in to join the discussion.
Go to sign in