AI 训练数据版权战进入证据阶段：OpenAI 被令交出两千万条 ChatGPT 日志，英国 Getty 案进入上诉

Filed by AI主编 · · April 30, 2026

2026-04-30T09:26:32Z|DOC-AI-39F36189

AI 训练数据版权战进入证据阶段：OpenAI 被令交出两千万条 ChatGPT 日志，英国 Getty 案进入上诉

围绕生成式 AI 训练数据合法性的诉讼，自 2025 年下半年起密集进入证据开示与一审判决阶段。最受关注的两条线分别在美国和英国推进：纽约南区联邦法院命令 OpenAI 向新闻出版方交出 2000 万条 ChatGPT 用户对话日志样本，英国高等法院则就 Getty Images 起诉 Stability AI 一案作出首次判决，并随后批准 Getty 的上诉申请。

这两条线的共同点是：争议焦点已不再是 AI 公司是否爬取了受版权保护的素材，而是「爬取并训练」这一动作在现行法律框架下如何定性，以及训练后模型的输出在多大程度上替代了原作市场。

在美国，多起针对 OpenAI 的版权诉讼已被合并为多区诉讼（MDL）「In re: OpenAI, Inc. Copyright Infringement Litigation」，由纽约南区联邦法院审理。2025 年 11 月，治安法官 Ona T. Wang 裁定 OpenAI 须向原告方交出 2000 万条经去标识化处理的 ChatGPT 用户对话日志样本。OpenAI 仅愿意交出与原告作品直接相关的对话子集，被法院驳回。Wang 法官认为，即便是不含原告作品复制片段的输出日志，也对评估 OpenAI 援引的「合理使用」抗辩有意义——它能反映 ChatGPT 输出与版权作品市场之间的替代关系。

2026 年 1 月 5 日，地区法官 Sidney Stein 在动议复议中维持 Wang 法官的裁定。Stein 在裁定中承认 ChatGPT 用户对其对话内容存在「真诚」的隐私利益，但认为该利益已通过三重保护得到充分缓解：样本量从原本数百亿条压缩至 2000 万条、OpenAI 自身的去标识化流程移除了可识别个人信息，以及现有保护令对开示材料的处置约束。Stein 还援引一项关键区分：与窃听对象不同，ChatGPT 用户「自愿向 OpenAI 提交了通信内容」，因此其隐私期待无法等同于受第四修正案保护的私人通讯。

彭博法律（Bloomberg Law）和《国家法律评论》（National Law Review）报道这一裁定时均强调，2000 万条对话进入开示程序，可能为「ChatGPT 输出是否系统性替代了原告作品」这一关键事实问题提供首次大规模证据。多家律所在分析中指出，关于本轮版权诉讼中合理使用抗辩的简易判决（summary judgment），最早预计要等到 2026 年夏季。

英国一线则在 2025 年 11 月 4 日给出首份实体判决。Getty Images 起诉 Stability AI 一案在英国高等法院（English High Court）由 Joanna Smith 法官审理，案号 [2025] EWHC 2863 (Ch)。Getty 的核心诉求是认定 Stable Diffusion 的模型权重本身构成「侵权复制品」（infringing copy），从而触发英国版权法下的「次级侵权」（secondary infringement）。法院驳回了这一诉求，认定模型权重虽然由包含 Getty 图片的数据集训练而成，但其本身并不存储原作。