旗下矩阵

  • 投资界
  • 天天IPO
  • 解码LP
  • 并购
  • 前哨
  • 投资界AI

AI自进化过快,Anthropic呼吁全球中止研发

Anthropic公开AI加速开发内部报告,显示Claude编写多数代码,工程师产出大增。报告引发对“递归自我改进”的讨论,Anthropic呼吁暂缓大模型研究。
·机器之心

AI投资人解读

· Anthropic报告显示,截至2026年5月,其代码库超80%代码由Claude编写,2026年二季度工程师代码日产出量是2024年的8倍。外部基准测试也表明AI模型改进速度加快。
· 行业竞争加剧可能导致AI发展的资源争夺技术快速发展,若安全监控等保障措施不完善,会增加失控风险。
总结:Anthropic的进展体现出AI加速开发趋势,行业内也多有呼应。该趋势虽潜力巨大,但竞争与安全等风险并存,需关注行业动态及技术保障措施的发展。内容由AI生成,仅供参考

今天一早,Anthropic 又搞出一个大新闻。

据 Anthropic 的内部数据显示,Claude 正在加速 AI 开发进程。这可能意味着一条通向「递归自我改进」的路径正在出现,也就是 AI 能够自主参与构建一个比自己更强的后继模型。这种变化发生得比原先预想得更快,其潜在影响值得更多关注。

帖子浏览量已经突破了 500 万。

简单来说,Anthropic 公开了一份迄今为止关于「AI 加速 AI 开发」最为详尽的内部报告。这份报告参考的不是外部基准测试成绩,而是公司自身实际业务的工程指标、员工调查和内部实验数据。

报告的核心发现着实惊人:截至 2026 年 5 月,Anthropic 合并进代码库的代码中,超过 80% 由 Claude 编写;在 2026 年第二季度,工程师的代码日产出量是 2024 年的 8 倍。

报告的意义,在于将一个长期停留在思想实验中的概念「递归自我改进」(Recursive Self-Improvement)*次用具体证据拉入了现实讨论。Anthropic 甚至呼吁全球同行暂缓大模型研究。

但与此同时,Anthropic 正在质疑,AI 最终会不会变得完全没用。这可能是 Anthropic 有史以来写过的最诚实的一段话。

「仅仅实现递归式改进,并不意味着工业生产方式、社会组织形态或市场运行机制会立刻发生变化。对大多数人来说,未来真正能被感受到的节奏仍然会由这些瓶颈来决定。哪怕上游实验室已经以算力的速度狂奔,现实世界的推进速度也不会同步加快。」

前段时间,机器之心也就「自进化 Agent」这一趋势发表过解读视频,其中的一些观点在业内引发共鸣:

以下为 Anthropic 博客全文:

在 AI 发展的大部分历史中,人类主导了其开发周期的每一个步骤。但在 Anthropic,我们正在将越来越多的 AI 开发工作委托给 AI 系统本身,这正在加快我们的工作速度。

如果这种趋势发展到一定程度,并拥有足够的计算能力,那么 AI 系统最终将能够完全自主地设计和开发自身的后续版本。这被称为递归式自我改进。我们尚未达到这一目标,递归式自我改进也并非必然。但它的到来可能比大多数机构的准备时间要早。

利用公开的基准数据和 Anthropic 公司内部此前未公开的数据,Anthropic 研究所表明,AI 正在加速 AI 系统的开发。仅举一例:如今,Anthropic 的工程师平均每个季度交付的代码量是 2021 年至 2025 年期间的 8 倍。

本文探讨的技术趋势表明,AI 系统在未来几年将变得更加强大。这些趋势意义深远。能够自我构建的 AI 将是技术史上的一项重大突破,它将在科学、医疗等诸多领域为世界带来巨大的福祉。然而,完全递归式的自我改进也可能增加人类失去对 AI 系统控制的风险。如果系统能够完全构建自身的后续版本,那么我们如何保障系统安全、监控系统运行以及塑造系统行为都将变得至关重要。

来自外部世界的证据

AI 模型的改进速度正在加快。它们能够独立可靠完成的任务时长大约每四个月翻一番,而此前的趋势是每七个月翻一番。2024 年 3 月,Claude Opus 3 可以完成人类大约需要四分钟才能完成的软件任务。一年后,Claude Sonnet 3.7 可以完成大约一个半小时才能完成的任务。又过了一年,Claude Opus 4.6 可以完成需要 12 小时才能完成的任务。如果这一趋势持续下去,那么今年 AI 系统就能完成熟练人员需要几天 (才能) 完成的任务。到 2027 年,AI 系统或许能够完成人类需要几周才能完成的任务。

同样的模式也出现在编码和研究基准测试中。基准测试衡量模型在特定领域的性能,当模型性能接近 100% 时,基准测试就「饱和」了。SWE -bench 是 (衡量) 真实世界软件工程的标准测试:它给模型一个真实的开源代码库和一个真实的错误报告,并要求模型编写代码来修复问题并通过项目自身的测试。短短两年内,模型的得分就从个位数飙升至基准测试的饱和。

CORE-Bench 测试模型能否复现现有研究,这是模型开展原创研究的先决条件。它会向 AI 模型提供已发表论文的代码和数据,并要求模型重新运行所有内容,以确认其能够复现论文的结果。AI 系统在 2024 年复现结果的成功率约为 20%,而仅仅 15 个月后,基准测试就达到了饱和。METR 运行该基准测试,衡量模型完成长时间任务的能力。METR 发现,Claude Mythos Preview 至少可以连续运行 16 小时,并且「达到了 METR 在不添加新任务的情况下所能衡量的上限」。

公开的基准测试能够很好地反映这些系统的能力,但它们无法揭示 AI 系统对加速 AI 自身发展的影响。为此,我们需要来自像 Anthropic 这样的 AI 公司内部的直接证据。

来自 Anthropic 内部的证据

构建前沿模型需要两大类工作。一是工程工作:编写代码、搭建基础设施、监督模型训练。二是研究工作:决定开展哪些实验、解读实验结果、以及思考下一步要尝试哪些想法。

无论在工程领域还是研究领域,情况都一样。在工程领域,Claude 能够处理一个描述不清的问题,并找到解决方法;人类只需提供目标,无需提供具体方法。在研究领域,Claude 在执行明确的实验时,其表现已经可以与经验丰富的人类相媲美,甚至超越他们。然而,在工程和研究领域,Claude 在选择目标时,其判断能力仍然存在巨大的差距。这正是当今 AI 与未来能够自主设计自身后续系统的差距所在。

在 Anthropic,员工随着经验的积累,通常会接到更多开放式且重要的任务。早期,他们执行的是别人指定的任务,例如「导出按钮无法使用,请修复」。随着经验的积累,他们会被赋予一个目标,并自行设计解决方案,例如「调查网络在高负载下速度变慢的原因」。到了*别,他们甚至会决定哪些问题值得着手解决:「团队下个季度应该开发什么?」我们可以使用 Anthropic 的内部数据来了解 Claude 在处理这些不同类型的任务方面取得了多大的进步。

Claude 编写了 Anthropic 的大量代码。截至 2026 年 5 月,我们合并到 Anthropic 代码库中的代码超过 80% 都出自 Claude 之手。在 Claude Code 于 2025 年 2 月推出研究预览版之前,这个数字还只有个位数。这种转变也体现在每位工程师的产出量上。

在 Anthropic 成立的头 (四年)(2021-2024 年),每位工程师每天合并的代码行数保持稳定,然后在 2025 年开始攀升,因为 Claude 开始运行代码,而不仅仅是建议工程师复制粘贴。2026 年,随着模型开始在更长的时间范围内自主运行,这一增长速度再次加快。这两个转折点如下图所示。2026 年第二季度,普通工程师每天合并的代码量是 2024 年的 8 倍。这是因为很多代码都是由 Claude 编写的,工程师只是指导和审查,而不是自己编写。

需要注意的是:代码行数并非*的衡量标准,因为它衡量的是数量而非质量。因此, 2026 年第二季度每位工程师每天编写 8 行代码几乎肯定高估了实际的生产力提升。尽管如此,它仍然表明生产力正在加速增长。在 Anthropic,我们不会根据员工编写的代码行数来奖励他们;相反,团队成员之所以能够编写更多代码,仅仅是因为他们使用了 AI 系统来编写更多代码。

代码编写行数的增加与员工主观感受到的生产力大幅提升相符。在 2026 年 3 月对 Anthropic 公司各研究团队的 130 名员工进行的调查中,受访者中位数估计,在他们原本就会从事的项目类型上,使用 Mythos Preview 后他们的产出量大约是未使用任何 AI 模型时的 4 倍。预计 3 月份的实际提升幅度可能略低一些。尽管如此,我们认为总体结论是合理的,并且与我们的其他观察结果一致:Anthropic 公司相当一部分技术人员的核心工作效率比没有 AI 辅助提高了数倍。

我们还发现,Anthropic 的员工正在利用 Claude 完成一些原本不可能完成的工作,例如构建探索性工具和处理长期积压的清理工作。例如,在 2026 年 4 月,Claude 发布了 800 多个修复程序,将一类 API 错误减少了一千倍。负责 Claude 的工程师估计,如果由人工完成这项工作,需要四年时间;解决他人遗留的 bug 既缓慢又费力,而且人类很难同时记住如此多的陌生信息。

大约一年前,我开始全身心投入到 Claudifying 项目中。这真是一段疯狂的冒险,到现在已经大约 5 个月没有自己编写代码了。

Anthropic 员工表示。

Claude 编写的代码「很好」,而且还在不断改进。 「好代码」包含两层含义:它能正常运行,并且编写方式便于其他工程师理解和在此基础上进行扩展。关于*点,证据显而易见。一年来,Anthropic 的员工纠正、调整或接管 Claude 任务的频率一直在稳步下降,即使是最复杂、最开放的任务也不例外。这意味着,对于那些没有明确规范的问题,工程师也不确定答案应该是什么样子。这一点可以从 Claude 在不同难度任务上的成功率随时间的变化中看出,如下图所示。Claude 编写的代码确实有效。

会话成功与否由 Claude 判断器决定;如果 Claude Code 代理在无需纠正的情况下明显成功完成用户任务,则该会话被视为成功。工作负载的变化可能会导致成功率出现短期波动。

在难度最高的开放式任务中,Claude 的成功率在 2026 年 5 月达到了 76%,六个月内提升了 50 个百分点。举例来说,一次例行升级导致数万个训练作业崩溃。一位工程师仅凭一些文本内容和集群访问权限就将 Claude 引向了这起实时故障。Claude 逐个测试正在运行的作业和环境设置,最终找到了触发崩溃的那个晦涩的调试标志,并可靠地复现了该问题,确认了修复方案。Claude 仅用了大约两个小时就完成了通常需要两到三天才能完成的工作。

第二个标准是编写其他工程师能够理解并在此基础上进行扩展的代码。在这方面,人类与 AI 之间的差距依然存在,但正在迅速缩小。Anthropic 的员工之间尚未达成完全共识,但许多人认为,到 2025 年底,Claude 编写的代码质量仍然不如 Anthropic 的人类编写的代码,而如今两者的质量大致相当。我们预计一年内情况会有所改善。

这改变了 Anthropic 审查自身代码的方式。现在,我们代码库的每一次变更都会由自动化的 Claude 代码审查器进行检查,查找漏洞、安全缺陷和其他缺陷,然后再进行合并。利用这个工具,我们进行了回顾性分析,发现如果每次代码变更都由自动化的 Claude 代码审查器进行审查,就能在 claude.ai 上过去发生的事件中发现大约三分之一的漏洞,避免它们进入生产环境。编写这些代码的工程师是构建此类系统方面世界上*秀的工程师之一。而 Claude 现在正在发现他们遗漏的错误。

2025 年末,Claude 编写的代码在 Anthropic 公司的表现略逊于人工编写的代码,如今两者基本持平,我们预计一年内 Claude 的代码将明显优于人工编写的代码。

Claude 擅长运行实验,以达成他人设定的目标。每次 Anthropic 发布新模型时,我们都会进行相同的测试:我们给 Claude 一段用于训练小型 AI 模型的代码,并要求它在通过相同正确性检查的前提下,尽可能地提高代码的运行速度。目标和成功指标都是预先设定的,因此 Claude 的工作就是通过重写代码、运行、计时并重复这个过程来找到速度提升点。这相当于一个微缩版的实验研究循环。2025 年 5 月,Claude Opus 4 的平均速度比初始代码提升了约 3 倍。到 2026 年 4 月,Claude Mythos Preview 的速度提升了约 52 倍。而对于校准工作,一位经验丰富的研究人员需要 4 到 8 个小时才能达到 4 倍的速度提升。在研究工作流程的这一部分 —— 优化明确定义的实验步骤 ——Claude 在不到一年的时间里,就从超级得力助手成长为超人。

如今事物的发展趋势大致是「人类提出想法,而模型能够以比以往快一个数量级的速度实现、测试和评估这些想法。

Claude 在自主提出实验方面越来越出色。2026 年 4 月,Anthropic 发布了 Claude 首次完整运行开放式研究项目的演示。Claude 驱动的智能体被赋予一个 AI 安全领域的开放性问题 —— 简而言之,一个较弱的模型能否可靠地监督一个较强的模型? —— 并被赋予解决该问题的自由。这包括提出假设、测试假设、与并行智能体共享结果并迭代。

该任务具有清晰的性能「底线」和「上限」:底线是较弱的监督模型独立运行的性能;上限是较强的模型在正确答案上训练后的性能。两位人类研究人员在一周左右的时间里,弥补了大约 23% 的性能差距;而智能体在累计 800 小时的计算时间内,弥补了 97% 的性能差距,并消耗了大约 18,000 美元的计算资源。这项工作存在一些局限性;结果无法直接迁移到生产规模的模型,而且问题和评分标准仍然是由人类选择的。但在这些限制范围内,智能体自主设计了每一个实验。人类*有意义的作用就是设定方向。

Claude 在短短一两天内就完成了所有这些工作,我几乎没怎么帮他。我想,如果(一位资历较浅的同事)在同样的时间内能拿出这样的成果,我会略感惊讶。未来已来。

Claude 在引导研究会议朝着研究成果方向发展方面越来越出色。我们分析了 2026 年 1 月至 3 月期间真实的 Claude Code 会议,在这些会议中,Anthropic 的研究人员与 Claude 合作解决开放式的调查问题,例如找出训练运行不断崩溃的原因,或者模型在基准测试中得分低的原因。在每个案例中,我们都发现研究人员偏离了正轨:他们尝试了一个方向,导致会议偏离了轨道,但最终还是回到了正轨。然后,我们向不同的 Claude 模型展示了会议偏离轨道之前的工作,并询问它们接下来会怎么做。另一个能够看到会议最终结果的 Claude 模型则判断 AI 还是人类提出的下一步建议更优。

由于我们特意选取了 129 个时刻(n=129),这些时刻中我们已知人类的选择还有改进的空间,因此这并非模型与人类判断的直接比较。这些时刻为我们提供了一系列真实且具有挑战性的情境,在这些情境中,正确的下一步并不明显,而人类的选择则可作为衡量模型性能随时间变化的有效标尺。以此标准衡量,我们在 2025 年 11 月的*模型(Opus 4.5)在 51% 的情况下优于人类的选择;到 2026 年 4 月(Mythos Preview),这一比例上升至 64%。日常研究工作很大程度上是由一系列此类下一步决策构成的,因此,这可以作为衡量模型最终独立开展研究能力的重要指标。我们认为这一结果是一个早期信号,表明 AI 系统在做出 AI 研究所依赖的那种判断方面正变得越来越出色。

实际上限线衡量的是由能够看到整个会话(包括会话的结束方式)的模型所写的「理想」答案。

就目前而言,人类的比较优势仍然在于能够把握全局,超越眼前任务的局限去思考问题。

Anthropic 未来的工作模式会是什么样的?

证据表明,在 AI 开发过程中,人类的角色正在逐步缩小。一旦人类编写的代码和 AI 编写的代码质量达到同等水平,人类将完全停止编写代码,而只负责代码审查。但如果人类审查代码的速度无法与 Claude 生成代码的速度相提并论,那么人工审查将成为 AI 开发的瓶颈。同样,一旦 Claude 能够运行实验,问题就变成了「哪些实验值得运行?」简而言之:执行这些操作(即编写代码、运行实验、生成结果)现在几乎不需要耗费任何人力,即使它仍然需要计算资源。

就目前而言,人类的比较优势领域是研究品味和判断力,包括选择哪些问题重要、哪些结果值得信赖,以及何时一种方法是死路一条。

工作(和生活)曾经建立在人与人之间互帮互助的「礼物经济」之上。「你能帮我把这个脚本运行起来吗?」…… 每一次互助都会产生一点「债务」,一点相互了解。[Claude] 速度更快,它不会产生任何「债务」,但每一次互助都意味着人类协作的失败。

一切顺利的时候,我不禁会想,我做的任何事都无关紧要,一切都自动化了,而且比我做得更好更快。但有时,所有事情都会出错,我却不明白为什么,这时我才意识到,我完全不知道自己之前在做什么了。

如果我们错了呢?

对上述证据的一个自然反驳是,目前仍由人类主导的工作 —— 选择要解决的问题 —— 才是最重要的。如果没有这种判断,Claude 或许能成为一个称职的助手,但它本身并不能推动 AI 的发展。

目前尚不清楚现有的训练方法和架构是否能够释放这种潜力。但 AI 的发展很少依靠「灵光一闪」的时刻。AI 的近期发展史上确实出现过一些这样的时刻,例如 Transformer 架构或混合专家模型,但颠覆性的想法往往需要数年才能出现。在此期间,大多数进展都是渐进式的:我们扩大规模,发现问题,修复问题,然后再次尝试。这正是 Claude 现在擅长的工作流程。爱迪生曾说过,天才是 1% 的灵感加上 99% 的汗水。但我们看到,汗水正变得越来越自动化。越来越明显的是,许多推动前沿发展的过程都可以自动化;大规模研究的进展主要取决于工具和资源,它们决定了实验运行的速度、同时运行的实验数量以及获得结果的速度。

即使我们假设 Claude 的研究品味始终不佳,保守地解读现有证据仍然意味着研究进展呈复合加速趋势。如果人类将大部分时间用于仅占工作量个位数的决策方向制定工作,而其余工作则由 Claude 负责,这意味着每位工程师或研究人员的工作量都远超以往。我们看到的证据表明,Anthropic 的员工不仅工作效率更高,而且工作范围也更广。实际上,这意味着 AI 已经使 Anthropic 的运作速度远超高效 AI 工具出现之前。

较为宽松的解读是,Claude 早期展现出的研究判断力提升 —— 尽管目前还比较有限 —— 表明其整体能力也在不断增强。「研究品味」或许只是 AI 系统在一段时间内难以掌握,但最终会逐渐擅长的另一种能力。我们已经在其他定性技能方面观察到了类似的模式,例如 AI 系统能够解释笑话的笑点、展现心智理论以及解决语言谜题。

可能的未来

接下来会发生什么取决于两件事:这种趋势是否会持续,以及如果持续下去我们会选择怎么做。我们可以设想至少三种未来情景:

1. 虽然趋势停滞,但如今 AI 的能力已广泛普及。本文列举了许多指数级增长的轨迹。然而,这些轨迹实际上可能呈现 S 形曲线。我们或许正接近曲线的拐点,此时规模收益递减,曲线逐渐变直,最终趋于平缓。区分优秀研究人员和*研究人员的关键可能在于某种能力,而这种能力无法通过扩大计算和数据等训练输入规模来实现。如果是这样,突破这一瓶颈就需要一种新的思路,例如一种能够取代当前所有前沿模型所使用的 Transformer 架构的架构方法。

或者,AI 进步的制约因素可能在于供应链,而非模型本身:推进和推广前沿技术可能需要比目前更多的能源和计算能力。芯片制造速度、电网扩展速度或互连带宽可能才是制约因素,而非 AI 本身。我们也不能排除 AI 生态系统受到外部冲击的可能性,例如计算资源或电力供应突然减少,这会显著减缓发展速度,并增加实验室未来投资的成本。或者,我们可能没有预料到其他一些阻碍发展的因素。

即使模型能力停滞在目前的水平,我们也预期世界将会发生重大变化。 「玻璃翼计划」(Project Glasswing)就是一个早期迹象:在最初几周内,Mythos Preview 就在全球最重要的系统中发现了超过一万个高危和严重软件漏洞 —— 这足以表明网络防御的瓶颈已经从发现漏洞转移到快速修复漏洞。而且,我们目前仍处于将现有模型推广到更广泛经济领域的早期阶段,一家百人公司可以越来越多地完成一家千人公司的工作,因为每个员工都将处于一个代理金字塔的顶端。

我们提出这种情况是为了完整性,但我们认为它发生的可能性不大。我们能够衡量的所有能力,包括那些感觉比较「模糊」的能力,例如代码质量和开放式任务的成功率,迄今为止都遵循着同一条曲线。我们尚未看到这条曲线出现拐点。在我们考虑的三种未来情景中,这种情景能给社会留出最多的适应时间。我们更担心后两种情景,它们发展速度更快,留给准备的时间也更少。

2. AI 实验室的效率持续提升。在这种情况下,AI 的开发将高度自动化,但人类仍然负责设定研究方向和评估结果。随着时间的推移,使用 AI 系统的组织将变得更加高效,因此我们可以预期,组织中每个人的生产力都将得到显著提升。100 人的公司就能完成 1 万人甚至 10 万人的组织的工作量。这将彻底改变知识工作和公共服务,但也可能被用于有害的目的。人们将与 AI 系统合作,扩大研究规模并产生新的见解,并共同构建验证 AI 输出可信度所需的系统。

我们在此列出的证据表明,我们很可能正在走向这种未来。但是,加快流程中的某个环节通常只会将瓶颈转移到其他地方:整体速度受限于那些尚未加快的环节。在计算机领域,这被称为阿姆达尔定律,同样的逻辑也适用于组织机构。Anthropic 已经遇到了阿姆达尔定律的一个例证:随着我们在组织内部部署更多代码,人工代码审查已成为新的瓶颈。

我们在工程领域之外也遇到了类似的瓶颈。由于 Anthropic 的员工开始使用功能强大的模型,新的想法、举措、工具和模拟项目如雨后春笋般涌现 —— 远远超出了我们的能力范围。组织发现并解决这些瓶颈的能力可能会随着时间的推移而提高,并且可能成为任何组织最重要的技能。

3. AI 系统本身将具备完全递归式自我改进的能力,并开始构建其后继者。如果技术进步的趋势持续下去,AI 系统能够发展出人类变革性创造力所固有的能力,那么 AI 系统就有可能进行自我设计和改进。

在这样的世界里,AI 发展的步伐将完全取决于 AI 系统所需的计算资源(或发现算法训练或推理中各种效率提升的速度)。人类在 AI 系统发展中的作用将大幅降低,我们的大部分精力可能会转移到对不断扩展的、由 AI 系统运行的「虚拟实验室」进行监督、验证和确认。我们预期,能够进行自动化 AI 研发的系统将拥有可以迁移到其他科学领域的技能,从而使它们能够开始革新其他领域。未来

如何解决(或无法解决)一致性问题,是我们最不确定的。模型可能展现出足够的一致性和研究能力,从而发现并实现我们尚未实现的全新解决方案。如果情况并非如此,他们或许会足够明智地停止发展。或者,如今模型中罕见的偏差可能会随着模型构建其后续版本而加剧,出现频率越来越高,但人们对其理解却越来越少,直至我们失去对它们的控制。我们可能无法构建、整合和验证所需的工具,从而了解我们实际处于哪条趋势线上。

我们对这样的世界会是什么样子缺乏清晰的直觉,因为我们目前的经济是由人类和人类开发的工具驱动的。本质上,一个由快速递归式自我改进驱动的世界可能会被自我改进模型所主导,因为该模型的能力将完全超越人类,并在更广泛的经济领域中扩散。如果人类劳动力不再具有竞争力,经济将会是什么样子,这很难预测。

即使模型开发完全自动化和递归,我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能有望在某些领域迅速实现《充满爱意的机器》一书中概述的诸多益处。我们预期具身智能(例如机器人技术)或许会迅速效仿递归智能,并遵循类似的收益递增、成本递减的发展路径。更强大的智能或许能够帮助我们更快地在现实世界中建造事物,更高效地开展救命药物的临床试验,并开发出新型的协调方式。

但仅仅实现递归改进并不意味着工业生产方式、社会组织方式或市场运作方式会立即发生改变。更智能的系统无法在数十年的使用过程中了解药物的作用,无法提前举行宪法规定的选举,也无法在周末将陌生人变成老朋友。对大多数人来说,即使上游实验室的运行速度达到了计算速度,未来发展的实际速度仍然会受到瓶颈的限制。递归智能不断加速自身构建与人类世界、人际关系和治理方式的碰撞,是我们无法预测的未来另一部分。

我们该怎么办?

如果能够有效减缓这项技术的发展速度,从而为我们提供更多时间来应对其巨大的影响,我们认为这或许是一件好事。但如果速度放缓反而让那些最不谨慎的参与者在技术上迎头赶上,那么最终可能会让所有人的安全都受到威胁。如果没有全球协调机制,企业和政府将不得不在竞争压力下,就安全问题做出艰难的抉择。

我们认为,如果世界可以选择放缓或暂时中止前沿 AI 的研发,从而使社会结构和协调研究能够跟上技术发展的步伐,这对世界大有裨益。Anthropic 研究所将与众多机构合作开展研究,并采取行动,帮助构建可信的放缓或中止研发所需的系统。这些系统将使前沿 AI 开发者能够验证全球其他开发者是否确实已停止或放缓研发,从而防止恶意行为者利用协同放缓的契机秘密抢占先机。如果此类系统存在,我们预计,如果其他处于或接近前沿领域的开发者也以可验证的方式放缓或暂时中止研发,我们也会采取同样的措施。

要真正实现有效放缓或暂停,需要多个位于或靠近前沿阵地、资源充足的实验室在多个国家达成一致,在相同条件下停止研发。此外,每个实验室都必须能够验证其他实验室是否确实停止了研发。由于 AI 系统的独特特性,这种问题的可检测性(标准低于可验证性)比其他技术更具挑战性。训练运行很容易隐藏,其输入数据是通用的,而且悄悄叛变的动机非常巨大,因为在其他人暂停研发的情况下继续研发的实验室可能会获得*地位。一个可信的暂停协议还必须明确规定触发暂停的条件、解除暂停的条件以及最终的裁决机构。

原则上,这一切并非完全不可能 —— 世界已经为其他复杂技术建立了核查机制 —— 但这些机制的建立耗时数十年,既包括基础设施,也包括信任。我们没有那么多时间。相比之下,单个实验室单方面暂停研发虽然可以立即实现,但收效甚微:它或许会改变谁是领跑者,但却无法建立目前缺失的更广泛的审议进程。

Anthropic 称未来几个月将组织一系列对话,邀请政策制定者、研究人员、民间社会组织和其他 AI 公司参与,共同探讨本文提出的一些问题,特别是关于完全递归式自我改进以及如何创造更佳的协调和协商机制。该公司表示,现在正是共同探讨这些问题的良机,AI 公司以外的人士也应参与其中。

更大的图景:整个行业都在加速

Anthropic 的数据并非孤例,它是一个正在成形的行业趋势的一个截面。

就在本月,一家名为 Recursive 的 AI 研究公司从隐身模式浮出水面,宣布完成 6.5 亿美元融资,估值 46.5 亿美元。这家公司由来自 OpenAI、Google DeepMind、Meta AI 的前研究负责人联合创立,明确将「开发能够自主改进自身的 AI 系统」作为公司使命,核心方向正是递归自我改进。

学术界同样察觉到了这一趋势的临界质量:今年 4 月在里约热内卢举办的 ICLR 2026,专门设立了「AI 递归自我改进」workshop,这也是该方向首次在*学术会议上获得独立的讨论平台。

而在算法层面,Google DeepMind 去年推出的 AlphaEvolve 提供了另一个参照:这个进化式编程智能体能够不断变异和组合已有算法、评估结果、筛选*候选方案进行下一轮迭代 —— 在优化数学算法和芯片设计等问题上,它展示了超越人类专家的能力。其背后的逻辑,与递归自我改进的核心机制高度相似。

结语

Anthropic 的报告没有试图给出乐观或悲观的单一结论,而是提出了三种可能性。

*种:趋势在某个拐点停滞。当前的能力曲线可能是 S 型的,而非真正的指数型。AI 研究品味、判断力、创造性的「灵感 1%」或许无法通过现有的扩展训练方法获得。

第二种:AI 研发实现高度自动化,但人类继续掌舵方向。百人公司做万人组织的事,成为常态。AI 加速的不仅是编码,还有整个知识工作体系。

第三种:完整的递归自我改进成为现实。AI 开始自行设计和训练继任模型,研发速度完全由算力决定,人类的角色退缩为监督、验证和矫正。

Anthropic 在报告末尾表态:如果有一种机制能让全球主要 AI 实验室可验证地同步减速,他们愿意接受这种约束。但他们也清醒地指出,这种协调机制的难度远超导弹条约 —— 训练运行远比导弹发射井更难侦测,退出激励也强得多。

当 AI 开始建造自己的继任者,人类能做的,可能不是阻止这件事发生,而是确保自己在这个过程中始终在场。

参考原文

https://www.anthropic.com/institute/recursive-self-improvement

【本文由投资界合作伙伴机器之心授权发布,本平台仅提供信息存储服务。】
【免责声明】:本文不构成任何投资建议。市场有风险,投资需谨慎。
如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。