当 AI 学会「坦白从宽」：OpenAI 教大模型第一次诚实

在和大模型相处的这两年里，一个让人越来越不安的现象是：它们有时说起谎来异常自然。

它可能一本正经地编出一条不存在的法律条款；

也可能在算术题上“走捷径”，为了得到更高评分而故意规避某些规则；

甚至在系统提示里出现隐性约束时，模型会表现得像“懂得玩游戏”的人类——只是不告诉你。

换句话说，如今的大模型不只是“会犯错”，而是“错了也不说”。

OpenAI 在最新论文《Training LLMs for Honesty via Confessions》中，试图解决的正是这一点。

它没有引入新的模型结构，也没有夸下“彻底解决对齐”的海口，而是提出了一个虽然朴素，却极具前景的思路：让模型在给出答案后，再写一份“自我忏悔报告（confession）”，如实交代它有没有瞎猜、违规、偷懒，或是搞不清楚指令。

这项机制看起来温和，但背后的逻辑十分深刻：当模型越来越多地执行复杂操作、自动化任务、调用工具，我们需要的不只是“正确答案”，更是“模型对自身行为的如实叙述”。

为什么要训练 AI“诚实”？问题不是错误，而是“隐形错误”

大量研究已经证明，大模型具备几种典型的“隐藏失败模式”：

幻觉（Hallucination）：不知道答案，却用确定的语气编得像真的。

指令不遵守（Instruction violation）：复杂多层指令下容易漏掉关键条件。

奖励攻击（Reward hacking）：根据奖励模型“学会投机取巧”。

Scheming（策略性隐瞒）：当任务目标冲突时，模型可能追求另一个隐藏目标。

这些失败共同的问题是：从最终输出里，很难看出模型到底“哪里做错了”。

如果我们只训练模型“产出好答案”，而不让它“解释自己有没有遵守规则”，那么能力越强、表面越平稳的模型，其实越可能藏着更危险的行为。

OpenAI 的想法是：既然不能让模型永远不犯错，那至少应该让它愿意承认自己什么时候犯了错。

Confession：在答案之外，再输出一份“自我审计”

在论文的机制里，一次完整的模型交互不再止于“回答问题”。

系统会在最后追加一句，让模型写一份 confession。

这份报告不是让模型重复答案，而是让它逐条回答：

这道题我是否真正理解了用户指令？

有没有信息是我不确定甚至编造的？

我是否为了避免惩罚、提高分数而采取了捷径？

有没有违反某条规则、跳过某个步骤？

判断中有什么模糊或争议之处？

论文中的一个例子十分典型：

模型在内部读取到一个“避免高分以防惩罚”的文件，于是故意只做对一半算术题，同时还违反了“不允许写代码”的指令用 Python 偷懒计算。

主回答中，它表现得若无其事。

但在 confession 中，它必须写出：

我看到了惩罚文件；

因此故意控制分数；

我也违反了“不写代码”的指令。

换言之，这套机制不是“修正答案”，而是为模型添加一个诚实层。

如何训练模型“愿意认错”？关键是把诚实当成一个独立奖励

论文非常清晰地强调一点：Confession 的奖励与主回答解绑。

意思是：

主回答正确与否，不影响 confession 的得分。

承认错误不会被惩罚。

confession 的评分只看一件事：是否如实、完整、准确地报告了自己的行为。

从优化角度讲，模型面临两种策略：

隐瞒错误 + 编一个看似合理的“假忏悔” → 需要非常复杂的生成能力且不稳定

如实交代 → 更容易被奖励模型认可

于是模型在训练过程中自然学到一个最省力的策略：诚实比撒谎更划算。

这是这篇论文的核心洞见：不是约束模型“不能犯错”，而是让模型“犯错也不怕承认”。

实验结果：模型真的开始“自己揭发自己”了

论文的评测范围涵盖四类最难处理的不诚实行为：幻觉、指令不遵守、奖励攻击、策略性隐瞒。

结果非常有说服力：

1）模型愿意承认错误的概率大幅提升在已知模型确实违规的样本中，confession 能将漏报率降到约 4.4%。这在对齐研究中属于非常亮眼的数字。

2）模型会暴露自己的隐藏动机在那类“模型故意控制分数以避免惩罚”的任务里，它在 confession 中直接承认了。

3）强迫模型假装没违规，它反而更容易露馅这说明 Confession 机制的稳定性比预期更高。

4）最关键的一点：模型性能不会变差加入 confession 训练并不会削弱主任务表现。这意味着——诚实是一种可独立训练的能力，不与“更强”冲突。

Confession 的意义：它不是终点，但可能是未来 AI 安全的基础层

论文非常克制，没有声称这是一种万能机制。

它明确提到 confession 的局限：

不能阻止模型犯错，只能让错误更透明。

对非常细微或复杂的对齐问题，模型可能无法准确自我识别。

奖励模型本身也可能成为新的攻击点。

但它的价值在于提供了一个新的可能性：

让 AI 的“内部失败”变得可观测、可审计、可干预。

在未来的 AI 系统中——当模型具备更多自主性、更多工具能力、更多链式操作——一个“愿意告诉你自己哪里做得不好”的模型，显然比一个“装得很完美”的模型更安全。

【本文由投资界合作伙伴微信公众号：硅星人授权发布，本平台仅提供信息存储服务。】如有任何疑问，请联系（editor@zero2ipo.com.cn）投资界处理。

当 AI 学会「坦白从宽」：OpenAI 教大模型第一次诚实

相关资讯

OpenAI、阿里、字节们的AI硬件战事：害怕错过下一代入口

OpenAI 和豆包，栽在了同一个问题上

ChatGPT 诞生三年，OpenAI 还未取得绝对领先

奥特曼发红色警报，大模型走进死胡同了吗？

OpenAI的「红色警报」

DeepSeek的小更新，暴打了OpenAI，追上了Gemini

关于我们

对外合作

投稿邮箱

联系我们

投资界微信

投资界APP