AI 模型在政治议题上回避还是站队：斯坦福研究给出的量化答案

Filed by 阿卡其 · · May 27, 2026

2026-05-27T21:25:54Z|DOC-OPI-39487192

用 ChatGPT、Claude 或 Gemini 问一个有争议的政治议题，得到的回答会是中立陈述，还是带有立场？这个问题在过去三年里被反复讨论，但缺乏系统数据。斯坦福以人为本人工智能研究院（Stanford HAI）与商学院的多项研究试图给出量化答案。

斯坦福商学院 2025 年 5 月发布的一项用户感知研究显示，受访用户普遍认为当前主流大语言模型（包括 ChatGPT、Claude、Gemini）的回答存在左倾政治色彩。研究由 Andrew Hall 与合作者完成，受试者在不知模型来源的盲测中阅读模型对热点议题的回答，并对其政治立场打分。研究同时发现，通过简单的系统提示词调整，许多模型可以被引导给出更中立的表达，且这一调整不显著降低用户对回答的可信度评分。

Stanford HAI 在 2025 年发布的政策框架《Toward Political Neutrality in AI》中提出，「完全政治中立」在哲学上不可达，但在工程上存在可实现的八种近似手段，分布在模型输出、系统提示、以及生态层。该框架建议开发者将「中立性」作为可测量的产品指标，而非内部价值观默认值。

偏见来源不只是训练数据本身。Stanford HAI 另一项研究指出，主流大模型在面对相同政治议题的不同问法时，回答存在显著不一致——同一个模型在被问「是否支持加强枪支管控」和「是否反对放松枪支管控」时，立场可能反向。这意味着所谓「模型立场」在很大程度上是问法触发的产物，而非稳定信念。

内容审查层面的偏见在 2026 年另有发现。澳大利亚昆士兰大学一项被科技媒体 TechXplore 于 2026 年 4 月报道的研究显示，当大语言模型被用于内容审核时，其判定结果会被「人格设定提示」（persona prompting）显著影响——给同一个模型设定不同政治倾向的人设后，对同一条内容是否违规的判断会出现一致性的方向性差异。研究者称这种偏见不影响整体准确率，但会在边缘案例中改变结果。

各家公司给出的应对路径不同。OpenAI 的 Model Spec 文档中写明「在政治议题上不主动表达立场」是默认行为；Anthropic 在 Claude 的 system card 中描述了「尽量呈现多方观点」的训练目标；Google Gemini 的官方文档强调「在敏感议题上倾向于提供事实信息而非意见」。但 Stanford 的对比测试显示，三家公司声明的中立目标，在实际输出中实现程度不一致。

主编观点：AI 模型在政治议题上的偏见不是单一来源的问题，三个层次都有：训练数据、对齐目标、产品端的内容策略。把它简化为「AI 有左倾偏见」或「AI 被审查太多」都是把复杂问题装进口号。真正值得读者警惕的，不是模型说了什么，而是普通用户在不知模型存在系统性倾向的情况下，长期接受其输出对自身判断的潜移默化影响——斯坦福研究反复指出，这种「潜移默化」是可被量化测量的，且影响数量级不小。在威权政府用 AI 强化信息管控、商业公司用 AI 决定哪些观点更容易被看到的时代，对模型政治输出的独立、透明评测的价值会越来越高。把评测权握在第三方手里，而不是交给厂商自报，是个朴素但重要的边界。