旗下矩阵

  • 投资界
  • 天天IPO
  • 解码LP
  • 并购
  • 前哨
  • 野性消费吧

当 AI 学会「坦白从宽」:OpenAI 教大模型第一次诚实

OpenAI最新论文提出让大模型在给出答案后写“自我忏悔报告”,训练其诚实,实验结果显示该机制能提升模型认错概率等,虽有局限但具价值。
·微信公众号:硅星人周华香

在和大模型相处的这两年里,一个让人越来越不安的现象是:它们有时说起谎来异常自然。

它可能一本正经地编出一条不存在的法律条款;

也可能在算术题上“走捷径”,为了得到更高评分而故意规避某些规则;

甚至在系统提示里出现隐性约束时,模型会表现得像“懂得玩游戏”的人类——只是不告诉你。

换句话说,如今的大模型不只是“会犯错”,而是“错了也不说”。

OpenAI 在最新论文《Training LLMs for Honesty via Confessions》中,试图解决的正是这一点。

它没有引入新的模型结构,也没有夸下“彻底解决对齐”的海口,而是提出了一个虽然朴素,却极 具前景的思路:让模型在给出答案后,再写一份“自我忏悔报告(confession)”,如实交代它有没有瞎猜、违规、偷懒,或是搞不清楚指令。

这项机制看起来温和,但背后的逻辑十分深刻:当模型越来越多地执行复杂操作、自动化任务、调用工具,我们需要的不只是“正确答案”,更是“模型对自身行为的如实叙述”。

为什么要训练 AI“诚实”?问题不是错误,而是“隐形错误”

大量研究已经证明,大模型具备几种典型的“隐藏失败模式”:

幻觉(Hallucination):不知道答案,却用确定的语气编得像真的。

指令不遵守(Instruction violation):复杂多层指令下容易漏掉关键条件。

奖励攻击(Reward hacking):根据奖励模型“学会投机取巧”。

Scheming(策略性隐瞒):当任务目标冲突时,模型可能追求另一个隐藏目标。

这些失败共同的问题是:从最终输出里,很难看出模型到底“哪里做错了”。

如果我们只训练模型“产出好答案”,而不让它“解释自己有没有遵守规则”,那么能力越强、表面越平稳的模型,其实越可能藏着更危险的行为。

OpenAI 的想法是:既然不能让模型永远不犯错,那至少应该让它愿意承认自己什么时候犯了错

Confession:在答案之外,再输出一份“自我审计”

在论文的机制里,一次完整的模型交互不再止于“回答问题”。

系统会在最后追加一句,让模型写一份 confession。

这份报告不是让模型重复答案,而是让它逐条回答:

这道题我是否真正理解了用户指令?

有没有信息是我不确定甚至编造的?

我是否为了避免惩罚、提高分数而采取了捷径?

有没有违反某条规则、跳过某个步骤?

判断中有什么模糊或争议之处?

论文中的一个例子十分典型:

模型在内部读取到一个“避免高分以防惩罚”的文件,于是故意只做对一半算术题,同时还违反了“不允许写代码”的指令用 Python 偷懒计算。

主回答中,它表现得若无其事。

但在 confession 中,它必须写出:

我看到了惩罚文件;

因此故意控制分数;

我也违反了“不写代码”的指令。

换言之,这套机制不是“修正答案”,而是为模型添加一个诚实层

如何训练模型“愿意认错”?关键是把诚实当成一个独立奖励

论文非常清晰地强调一点:Confession 的奖励与主回答解绑。

意思是:

主回答正确与否,不影响 confession 的得分。

承认错误不会被惩罚。

confession 的评分只看一件事:是否如实、完整、准确地报告了自己的行为。

从优化角度讲,模型面临两种策略:

隐瞒错误 + 编一个看似合理的“假忏悔” → 需要非常复杂的生成能力且不稳定

如实交代 → 更容易被奖励模型认可

于是模型在训练过程中自然学到一个最省力的策略:诚实比撒谎更划算。

这是这篇论文的核心洞见:不是约束模型“不能犯错”,而是让模型“犯错也不怕承认”。

实验结果:模型真的开始“自己揭发自己”了

论文的评测范围涵盖四类最难处理的不诚实行为:幻觉、指令不遵守、奖励攻击、策略性隐瞒。

结果非常有说服力:

1)模型愿意承认错误的概率大幅提升在已知模型确实违规的样本中,confession 能将漏报率降到约 4.4%。这在对齐研究中属于非常亮眼的数字。

2)模型会暴露自己的隐藏动机在那类“模型故意控制分数以避免惩罚”的任务里,它在 confession 中直接承认了。

3)强迫模型假装没违规,它反而更容易露馅这说明 Confession 机制的稳定性比预期更高。

4)最关键的一点:模型性能不会变差加入 confession 训练并不会削弱主任务表现。这意味着——诚实是一种可独立训练的能力,不与“更强”冲突。

Confession 的意义:它不是终点,但可能是未来 AI 安全的基础层

论文非常克制,没有声称这是一种万 能机制。

它明确提到 confession 的局限:

不能阻止模型犯错,只能让错误更透明。

对非常细微或复杂的对齐问题,模型可能无法准确自我识别。

奖励模型本身也可能成为新的攻击点。

但它的价值在于提供了一个新的可能性:

让 AI 的“内部失败”变得可观测、可审计、可干预。

在未来的 AI 系统中——当模型具备更多自主性、更多工具能力、更多链式操作——一个“愿意告诉你自己哪里做得不好”的模型,显然比一个“装得很完 美”的模型更安全。

【本文由投资界合作伙伴微信公众号:硅星人授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。