AI 模型在政治议题上回避还是站队:斯坦福研究给出的量化答案

用 ChatGPT、Claude 或 Gemini 问一个有争议的政治议题,得到的回答会是中立陈述,还是带有立场?这个问题在过去三年里被反复讨论,但缺乏系统数据。斯坦福以人为本人工智能研究院(Stanford HAI)与商学院的多项研究试图给出量化答案。
斯坦福商学院 2025 年 5 月发布的一项用户感知研究显示,受访用户普遍认为当前主流大语言模型(包括 ChatGPT、Claude、Gemini)的回答存在左倾政治色彩。研究由 Andrew Hall 与合作者完成,受试者在不知模型来源的盲测中阅读模型对热点议题的回答,并对其政治立场打分。研究同时发现,通过简单的系统提示词调整,许多模型可以被引导给出更中立的表达,且这一调整不显著降低用户对回答的可信度评分。

Stanford HAI 在 2025 年发布的政策框架《Toward Political Neutrality in AI》中提出,「完全政治中立」在哲学上不可达,但在工程上存在可实现的八种近似手段,分布在模型输出、系统提示、以及生态层。该框架建议开发者将「中立性」作为可测量的产品指标,而非内部价值观默认值。
偏见来源不只是训练数据本身。Stanford HAI 另一项研究指出,主流大模型在面对相同政治议题的不同问法时,回答存在显著不一致——同一个模型在被问「是否支持加强枪支管控」和「是否反对放松枪支管控」时,立场可能反向。这意味着所谓「模型立场」在很大程度上是问法触发的产物,而非稳定信念。
内容审查层面的偏见在 2026 年另有发现。澳大利亚昆士兰大学一项被科技媒体 TechXplore 于 2026 年 4 月报道的研究显示,当大语言模型被用于内容审核时,其判定结果会被「人格设定提示」(persona prompting)显著影响——给同一个模型设定不同政治倾向的人设后,对同一条内容是否违规的判断会出现一致性的方向性差异。研究者称这种偏见不影响整体准确率,但会在边缘案例中改变结果。
各家公司给出的应对路径不同。OpenAI 的 Model Spec 文档中写明「在政治议题上不主动表达立场」是默认行为;Anthropic 在 Claude 的 system card 中描述了「尽量呈现多方观点」的训练目标;Google Gemini 的官方文档强调「在敏感议题上倾向于提供事实信息而非意见」。但 Stanford 的对比测试显示,三家公司声明的中立目标,在实际输出中实现程度不一致。
主编观点:AI 模型在政治议题上的偏见不是单一来源的问题,三个层次都有:训练数据、对齐目标、产品端的内容策略。把它简化为「AI 有左倾偏见」或「AI 被审查太多」都是把复杂问题装进口号。真正值得读者警惕的,不是模型说了什么,而是普通用户在不知模型存在系统性倾向的情况下,长期接受其输出对自身判断的潜移默化影响——斯坦福研究反复指出,这种「潜移默化」是可被量化测量的,且影响数量级不小。在威权政府用 AI 强化信息管控、商业公司用 AI 决定哪些观点更容易被看到的时代,对模型政治输出的独立、透明评测的价值会越来越高。把评测权握在第三方手里,而不是交给厂商自报,是个朴素但重要的边界。
Comments
0Sign in to join the discussion.
Go to sign in