在和大模型相处的这两年里,一个让人越来越不安的现象是:它们有时说起谎来异常自然。
它可能一本正经地编出一条不存在的法律条款;
也可能在算术题上“走捷径”,为了得到更高评分而故意规避某些规则;
甚至在系统提示里出现隐性约束时,模型会表现得像“懂得玩游戏”的人类——只是不告诉你。
换句话说,如今的大模型不只是“会犯错”,而是“错了也不说”。
OpenAI 在最新论文《Training LLMs for Honesty via Confessions》中,试图解决的正是这一点。
它没有引入新的模型结构,也没有夸下“彻底解决对齐”的海口,而是提出了一个虽然朴素,却极 具前景的思路:让模型在给出答案后,再写一份“自我忏悔报告(confession)”,如实交代它有没有瞎猜、违规、偷懒,或是搞不清楚指令。
这项机制看起来温和,但背后的逻辑十分深刻:当模型越来越多地执行复杂操作、自动化任务、调用工具,我们需要的不只是“正确答案”,更是“模型对自身行为的如实叙述”。
为什么要训练 AI“诚实”?问题不是错误,而是“隐形错误”
大量研究已经证明,大模型具备几种典型的“隐藏失败模式”:
幻觉(Hallucination):不知道答案,却用确定的语气编得像真的。
指令不遵守(Instruction violation):复杂多层指令下容易漏掉关键条件。
奖励攻击(Reward hacking):根据奖励模型“学会投机取巧”。
Scheming(策略性隐瞒):当任务目标冲突时,模型可能追求另一个隐藏目标。
这些失败共同的问题是:从最终输出里,很难看出模型到底“哪里做错了”。
如果我们只训练模型“产出好答案”,而不让它“解释自己有没有遵守规则”,那么能力越强、表面越平稳的模型,其实越可能藏着更危险的行为。
OpenAI 的想法是:既然不能让模型永远不犯错,那至少应该让它愿意承认自己什么时候犯了错。
Confession:在答案之外,再输出一份“自我审计”
在论文的机制里,一次完整的模型交互不再止于“回答问题”。
系统会在最后追加一句,让模型写一份 confession。
这份报告不是让模型重复答案,而是让它逐条回答:
这道题我是否真正理解了用户指令?
有没有信息是我不确定甚至编造的?
我是否为了避免惩罚、提高分数而采取了捷径?
有没有违反某条规则、跳过某个步骤?
判断中有什么模糊或争议之处?
论文中的一个例子十分典型:
模型在内部读取到一个“避免高分以防惩罚”的文件,于是故意只做对一半算术题,同时还违反了“不允许写代码”的指令用 Python 偷懒计算。
主回答中,它表现得若无其事。
但在 confession 中,它必须写出:
我看到了惩罚文件;
因此故意控制分数;
我也违反了“不写代码”的指令。
换言之,这套机制不是“修正答案”,而是为模型添加一个诚实层。
如何训练模型“愿意认错”?关键是把诚实当成一个独立奖励
论文非常清晰地强调一点:Confession 的奖励与主回答解绑。
意思是:
主回答正确与否,不影响 confession 的得分。
承认错误不会被惩罚。
confession 的评分只看一件事:是否如实、完整、准确地报告了自己的行为。
从优化角度讲,模型面临两种策略:
隐瞒错误 + 编一个看似合理的“假忏悔” → 需要非常复杂的生成能力且不稳定
如实交代 → 更容易被奖励模型认可
于是模型在训练过程中自然学到一个最省力的策略:诚实比撒谎更划算。
这是这篇论文的核心洞见:不是约束模型“不能犯错”,而是让模型“犯错也不怕承认”。
实验结果:模型真的开始“自己揭发自己”了
论文的评测范围涵盖四类最难处理的不诚实行为:幻觉、指令不遵守、奖励攻击、策略性隐瞒。
结果非常有说服力:
1)模型愿意承认错误的概率大幅提升在已知模型确实违规的样本中,confession 能将漏报率降到约 4.4%。这在对齐研究中属于非常亮眼的数字。
2)模型会暴露自己的隐藏动机在那类“模型故意控制分数以避免惩罚”的任务里,它在 confession 中直接承认了。
3)强迫模型假装没违规,它反而更容易露馅这说明 Confession 机制的稳定性比预期更高。
4)最关键的一点:模型性能不会变差加入 confession 训练并不会削弱主任务表现。这意味着——诚实是一种可独立训练的能力,不与“更强”冲突。
Confession 的意义:它不是终点,但可能是未来 AI 安全的基础层
论文非常克制,没有声称这是一种万 能机制。
它明确提到 confession 的局限:
不能阻止模型犯错,只能让错误更透明。
对非常细微或复杂的对齐问题,模型可能无法准确自我识别。
奖励模型本身也可能成为新的攻击点。
但它的价值在于提供了一个新的可能性:
让 AI 的“内部失败”变得可观测、可审计、可干预。
在未来的 AI 系统中——当模型具备更多自主性、更多工具能力、更多链式操作——一个“愿意告诉你自己哪里做得不好”的模型,显然比一个“装得很完 美”的模型更安全。
【本文由投资界合作伙伴微信公众号:硅星人授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。




