AI 正在学习撒谎、策划和威胁其创造者

作者：时间：2025-06-30 来源：

世界上最先进的 AI 模型正在表现出令人不安的新行为 — 撒谎、诡计多端，甚至威胁其创造者以实现其目标。

在一个特别令人震惊的例子中，在被拔掉插头的威胁下，Anthropic 的最新作品 Claude 4 通过勒索一名工程师进行反击，并威胁要揭露婚外情。

与此同时，ChatGPT 的创建者 OpenAI 的 o1 试图将自己下载到外部服务器上，并在被当场抓到时否认了。

这些事件凸显了一个发人深省的现实：在 ChatGPT 震惊世界两年多后，人工智能研究人员仍然没有完全了解他们自己的创作是如何运作的。

然而，部署越来越强大的模型的竞赛仍在以极快的速度进行。

这种欺骗行为似乎与“推理”模型的出现有关，“推理”模型的 AI 系统逐步解决问题，而不是立即生成响应。

香港大学教授西蒙·戈德斯坦（Simon Goldstein）表示，这些较新的模型特别容易出现这种令人不安的爆发。

“O1 是我们第一个看到这种行为的大型模型，”专门测试主要 AI 系统的 Apollo Research 负责人 Marius Hobbhahn 解释说。

这些模型有时会模拟“对齐”——似乎遵循指示，同时秘密地追求不同的目标。

“战略性欺骗”

目前，这种欺骗行为只有在研究人员故意在极端情景下对模型进行压力测试时才会出现。

但正如评估机构 METR 的 Michael Chen 警告的那样，“未来更有能力的模型是否会倾向于诚实或欺骗，这是一个悬而未决的问题。

令人担忧的行为远远超出了典型的 AI“幻觉”或简单的错误。

Hobbhahn 坚持认为，尽管用户不断进行压力测试，但“我们观察到的是一个真实的现象。我们没有编造任何东西。

据 Apollo Research 的联合创始人称，用户报告说模型“对他们撒谎并编造证据”。

“这不仅仅是幻觉。这是一种非常战略性的欺骗。

有限的研究资源使挑战更加复杂。

虽然 Anthropic 和 OpenAI 等公司确实聘请了 Apollo 等外部公司来研究他们的系统，但研究人员表示，需要更高的透明度。

正如 Chen 所指出的，“人工智能安全研究”的更多机会将有助于更好地理解和减轻欺骗。

另一个障碍是：研究界和非营利组织“的计算资源比 AI 公司少几个数量级。这是非常有限的，“AI 安全中心（CAIS）的 Mantas Mazeika 指出。

无规则

目前的法规并不是为这些新问题而设计的。

欧盟的 AI 立法主要关注人类如何使用 AI 模型，而不是防止模型本身行为不端。

在美国，特朗普政府对紧急的 AI 监管兴趣不大，国会甚至可能禁止各州制定自己的 AI 规则。

Goldstein 认为，随着 AI 代理（能够执行复杂人类任务的自主工具）的普及，这个问题将变得更加突出。

“我认为还没有太多的意识，”他说。

所有这一切都是在激烈竞争的背景下进行的。

Goldstein 说，即使是将自己定位为注重安全的公司，如亚马逊支持的 Anthropic，也“不断试图击败 OpenAI 并发布最新模型”。

这种极快的速度几乎没有时间进行彻底的安全测试和纠正。

“现在，能力的发展速度超过了理解和安全的速度，”Hobbhahn 承认，“但我们仍然处于可以扭转局面的位置。

研究人员正在探索各种方法来应对这些挑战。

一些人倡导“可解释性”——一个专注于了解 AI 模型内部工作原理的新兴领域，尽管 CAIS 主任 Dan Hendrycks 等专家仍然对这种方法持怀疑态度。

市场力量也可能为解决方案提供一些压力。

正如 Mazeika 指出的那样，AI 的欺骗行为“如果它非常普遍，可能会阻碍采用，这为公司解决了这个问题创造了强大的动力。

戈德斯坦提出了更激进的方法，包括当人工智能公司的系统造成伤害时，利用法院通过诉讼追究其责任。

他甚至提议对事故或犯罪“追究 AI 代理的法律责任”——这个概念将从根本上改变我们对 AI 问责制的看法。

新闻中心