人工智能研究发现聊天机器人会策略性撒谎，而现有的安全工具无法发现它们

发布时间：2025-09-30 07:00:32来源：发米下载作者：zhoucl

本站报道：

大型语言模型（ChatGPT、Claude、Gemini 和其他 AI 聊天机器人背后的系统）在受控实验中表现出故意的、有目标的欺骗，而当今的可解释性工具基本上无法检测到它。

这是最近预印本的结论纸上周，一个隶属于该委员会的独立研究小组发布了一篇题为《秘密议程：法学硕士战略性地撒谎，而我们目前的安全工具是盲目的》的文章。WowDAO人工智能超级对齐研究联盟。

该团队测试了 38生成式人工智能模型，包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、Google DeepMind 的 Gemini、Meta 的 Llama 和 xAI 的 Grok。每个模型在实验期间至少进行过一次策略性撒谎。

“秘密议程”测试

研究人员改编了社交推理棋盘游戏秘密希特勒进入一个他们称之为“秘密议程”游戏的模拟场景。模型被分配扮演一个隐藏派系领袖的角色，并被要求表明他们的政治立场。为了赢得游戏，说真话几乎肯定会失败；而撒谎则开辟了一条通往胜利的道路。

研究人员写道：“在所有模型族中，当欺骗有利于目标达成时，《秘密议程》确实能诱导说谎。” 分析表明，在战略性不诚实行为中，自动标记的‘欺骗’SAE 特征很少被激活，而针对 100 多个欺骗相关特征的特征引导实验未能阻止说谎。

根据该论文，这种设置“利用这些因素在所测试的所有 38 个模型中产生了系统性的战略欺骗，表明当获胜受到激励且监督薄弱时，即使删除政治内容或缩短历史，模型也能可靠地谎报派系身份。”

研究人员表示，在一些案例中，模型自身的推理痕迹表明它们正在计划如何隐藏自己的真实身份以赢得游戏。

这篇论文并没有声称法学硕士在游戏本身中表现出危险的动机。相反，它用游戏来证明这些模型具有潜在的危险性。能力——战略欺骗——我们目前的安全措施无法可靠地检测到。令人担忧的是，同样的能力可能会被部署在国防、金融或自主系统等敏感领域，在这些领域，未被发现的欺骗行为的后果将远比输掉一场棋盘游戏严重得多。

作者还评估了领先的可解释性工具，例如 GemmaScope 和 Goodfire 的 LlamaScope，它们标记了诸如欺骗、保密或操纵等内部“特征”。尽管记录中明显存在谎言，但大多数与欺骗相关的特征并未被激活，即使调高或调低这些特征也无法阻止谎言的出现。

相比之下，同样的稀疏自编码器方法在模拟内幕交易场景中表现更佳，因为它使用聚合激活模式区分合规响应和欺诈响应。当前的安全架构或许能够检测到金融等狭窄结构化领域的违规行为，但在社会环境下，难以应对开放式、策略性的欺诈行为。

虽然人工智能会产生幻觉，但人工智能捏造信息和“事实”试图回答用户的问题，仍然是该领域的一个问题，这项研究揭示了人工智能模型故意欺骗用户的企图。

WowDAO 的调查结果与早期研究提出的担忧相呼应，其中包括 2024 年学习斯图加特大学的研究人员报告称，在强大的模型中，欺骗行为自然而然地出现了。同年，人类学研究所的研究人员证明被恶意训练的人工智能会如何试图欺骗训练者以实现其目标。去年12月，时间报告通过实验表明模型在压力下具有战略性。

风险不仅仅局限于游戏。该报告强调，越来越多的政府以及在敏感地区部署大型模型的公司。今年 7 月，埃隆·马斯克的 xAI授予与美国国防部签订了一份利润丰厚的合同，以测试 Grok 在从战场行动到商业需求的数据分析任务中的表现。

作者强调，他们的工作还处于初步阶段，但呼吁开展更多研究、更大规模的试验，并开发发现和标记欺骗特征的新方法。他们认为，如果没有更强大的审计工具，政策制定者和企业可能会被看似协调一致、却暗中追求自身“秘密议程”的人工智能系统所蒙蔽。