旗下矩阵

  • 投资界
  • 天天IPO
  • 解码LP
  • 并购
  • 前哨
  • 投资界AI

Anthropic万字长文:当AI开始构建自己,人类该何去何从?

Anthropic凌晨发布《当人工智能开始自我构建》,展示AI加速自身开发,如Claude编写大量高质量代码,还探讨了未来情景及应对AI发展的措施。
·微信公众号:数字生命卡兹克 数字生命卡兹克 数字生命卡兹克

AI投资人解读

· Anthropic的AI开发正加速,如工程师交付代码量剧增,模型能力提升。Claude能处理多种任务,代码质量提高,还能执行实验、提出实验方向等。
· 行业竞争加剧可能使技术优势难保持政策变动影响AI发展递归自我改进失控会致人类失对AI控制。
总结:Anthropic的AI发展成果显著,具有投资潜力。但行业竞争、政策及技术失控风险并存,需关注其技术应用与风险应对,结合行业动态评估投资价值。内容由AI生成,仅供参考

今天这篇内容可能会比较特殊,是一篇Anthropic凌晨发的全新文章。

名字叫《When AI builds itself》。

翻译过来叫,《当人工智能开始自我构建》。

他们甚至还为这篇文章,配了一个超级精美的、非常能体现Agent自我构建这个理念的动画,由此可见Anthropic对这篇内容的重视程度可见一斑。

我大概凌晨1点多读的,读完以后,我直接就分享到了所有的群里,因为感觉确实学到了很多东西。

非常非常有价值。

然后开始写文章,也想给大家分享一下我自己的感悟。

但是写着写着,我觉得我怎么写都写不好,怎么都无法表达出原文的浩瀚。

所以,写着写着,算了。

这种内容,还是值得放原文。

所以,我把那篇文章,进行了全文的翻译和润色,分享给大家,也希望对大家有用,一定要看到最后,它值得你花20分钟的时间。

以下是《When AI builds itself》原文翻译:


《当 AI 开始构建自己》

在 AI 的大部分历史中,开发周期的每一步都由人类驱动。但在 Anthropic,我们正在将越来越多的 AI 开发工作交给 AI 系统自身来完成,而这正在加速我们的工作。

如果把这个趋势推到*,并给予充足的算力,它所指向的终点,是一个能够完全自主地设计和开发自己下一代的 AI 系统。这就是所谓的递归自我改进。我们还没有走到那一步,递归自我改进也并非必然发生。但它到来的速度,可能远超大多数机构的预期和准备。

借助公开基准测试以及此前从未对外披露的 Anthropic 内部数据,Anthropic 研究院正在展示一个事实:AI 已经在加速 AI 系统自身的开发。仅举一例:如今 Anthropic 的工程师平均每季度交付的代码量,是 2021 年至 2025 年间的 8 倍。

本文所讨论的技术趋势表明,AI 系统在未来几年将变得更加强大。这些趋势蕴含着巨大的影响。能自己构建自己的 AI,将是技术史上的重大里程碑,它可能在科学、医疗等领域为世界带来巨大的福祉。但完全的递归自我改进也可能加剧人类失去对 AI 系统控制的风险。如果系统有能力完全自主地构建自己的继任者,那么我们对它们的安全防护、监控和行为塑造就变得更加重要。

2021–2023构建初代 Claude  早期的 Anthropic,工作方式和其他任何科技公司没什么两样:人们在笔记本电脑上写代码、写文档。

2023–2025聊天机器人  人们开始用早期的聊天机器人辅助部分工作流程,比如生成一小段代码片段,然后把输出复制到文本编辑器里。

2025–2026编程智能体  随着智能体能力的增长,它们已经可以自主编写和修改代码,有时甚至能独立完成整个文件。

今天自主智能体  智能体现在可以自己运行代码,并将长达数小时的工作委派给其他智能体。

20XX?闭合回路  未来,智能体可能强大到足以自行构建和训练模型。如果这一天到来,Claude 的后续版本将可以由 Claude 自身持续改进。

来自外部世界的证据

AI 模型改进的速度正在加快,模型能够独立可靠完成的任务时长,大约每四个月翻一番,比此前每七个月翻一番的趋势明显加速。

2024 年 3 月,Claude Opus 3 能完成人类大约需要四分钟的软件任务。一年后,Claude Sonnet 3.7 能处理大约一个半小时的任务。再过一年,Claude Opus 4.6 已经能胜任 12 小时的任务。如果这个趋势持续下去,需要一个熟练工程师花几天才能完成的任务,今年内就可能落入 AI 的能力范围。到 2027 年,AI 系统可能有能力处理需要一个人花几周完成的任务。

同样的模式也出现在编程和研究基准测试中。基准测试衡量模型在特定领域的表现,当模型的得分接近 100%,我们就说基准被"饱和"了。

SWE-bench 是一个标准的真实世界软件工程测试:它给模型一个真实的开源代码库和一份真实的 Bug 报告,要求模型写出修复代码,并通过该项目自己的测试。模型的得分从最初的个位数百分比到饱和整个基准,只用了两年。

CORE-Bench 测试的是模型能否复现已有研究,这是开展原创研究的前提条件。它将一篇已发表论文的代码和数据交给 AI 模型,要求它重新运行所有内容并确认能否复现论文的结果。AI 系统的成功率从 2024 年的约 20% 上升到 15 个月后饱和整个基准。运营长时任务基准测试的 METR 机构发现,Claude Mythos Preview 能够"至少"连续工作 16 小时,并且处于"METR 在不增加新任务的情况下所能测量的上限"。

公开基准测试能揭示很多关于这些系统能力的信息。但它们无法展示 AI 系统在加速 AI 开发本身方面产生了多大影响。要看到这一点,我们需要来自 Anthropic 这样的 AI 公司内部的直接证据。

来自 Anthropic 内部的证据

构建一个前沿模型需要两大类工作。

一类是工程:编写代码、搭建基础设施、监督模型训练。另一类是研究:决定运行哪些实验、解读实验结果、想清楚下一步该尝试什么方向。

在工程和研究这两个方面,我们看到的图景是一致的。在工程领域,Claude 可以接手一个描述模糊的问题并自行找到解决方案;人类提供目标,但不再需要提供方法。在研究领域,对于一个定义清晰的实验,Claude 已经能够匹配甚至超越熟练人类的执行水平。然而,在运用判断力来选择目标这件事上,无论是工程还是研究,Claude 与人类之间仍然存在显著差距。这正是今天的 AI 与一个能自主设计自己继任者的未来系统之间的鸿沟。

在 Anthropic,员工随着经验积累,通常会接手越来越开放、越来越重要的任务。早期阶段,你执行的是别人指定好的任务,比如"导出按钮坏了,请修一下。"积累了经验之后,你会拿到一个目标,然后自己设计实现路径,比如"排查一下网络在高负载时为什么变慢。"到了最高层级,你要决定的是哪些问题值得去解决:"团队下个季度应该做什么?"我们可以用 Anthropic 的内部数据来看看,Claude 在处理这些不同层级的任务时已经走了多远。

Claude 编写了 Anthropic 代码库中相当大的比例。

截至 2026 年 5 月,我们合并到 Anthropic 代码库中的代码,超过 80% 由 Claude 编写。在 Claude Code 于 2025 年 2 月以研究预览版发布之前,这个数字还在个位数的低端。这一转变也反映在每位工程师的产出上。在 Anthropic 的头四年(2021–2024),每位工程师每天合并的代码行数基本持平,然后在 2025 年开始攀升——因为 Claude 从只是建议代码,变成了可以自己运行代码。2026 年这条曲线再次变陡,因为模型开始在更长的时间跨度上自主工作。

下面的图表展示了这两个拐点。在 2026 年第二季度,一名典型工程师每天合并的代码量是 2024 年的 8 倍。其原因在于,大部分代码是由 Claude 编写的,工程师的角色转向了指导和审查,而非亲手敲代码。

一个需要说明的地方是:代码行数是一个不*的衡量指标,因为它度量的是数量而非质量。所以 2026 年第二季度 每位工程师每天 8 倍的代码行数,几乎可以肯定是对真实生产力提升的高估。尽管如此,它仍然指示了一种加速。在 Anthropic,我们不以代码行数来衡量员工的贡献;团队成员产出更多代码,纯粹是因为他们在使用 AI 系统来编写更多代码。

代码行数的增长与主观感受到的巨大生产力提升是吻合的。2026 年 3 月,一项覆盖 Anthropic 研究团队 130 名员工的内部调查中,受访者的中位数估计是:在他们本来就会去做的那些项目上,使用 Mythos Preview 大约让他们的产出变成了不使用任何 AI 模型时的 4 倍。我们预计 3 月的真实提升幅度会略低一些。但我们认为这个整体判断是可信的,也与我们的其他观察一致:Anthropic 相当比例的技术人员,完成核心工作的速度已经是无 AI 辅助时的数倍。

我们还看到,Anthropic 员工在用 Claude 做一些原本根本不会发生的工作:比如构建探索性工具、处理长期积压的清理任务。举个例子,2026 年 4 月,Claude 交付了超过 800 个修复,将一类 API 错误的发生率降低了一千倍。负责监督 Claude 的工程师估计,如果由人类来做,这项工作需要四年才能完成;修复别人的 Bug 是缓慢而痛苦的,人类很难同时在脑中持有那么多不熟悉的上下文。

Claude 写出的代码"够好",并且还在变好。

"好代码"有两层含义:它能用,而且写法能让另一位工程师看得懂、接着往下开发。在*个标准上,证据非常清晰。过去一年里,Anthropic 员工纠正 Claude、在任务中途接管、或将 Claude 引回正轨的频率在持续下降,即使是在最复杂、最开放的任务上也是如此。所谓开放的任务,指的是没有明确规格说明的问题,工程师自己也不确定答案长什么样。下面的图表展示了 Claude 在不同难度任务上的成功率随时间的变化。Claude 写的代码确实能用。

在最开放的任务上,Claude 的成功率在 2026 年 5 月达到 76%,六个月内提高了 50 个百分点。举一个属于这个难度层级的例子:一次常规升级导致数万个训练任务崩溃。一名工程师只给了 Claude 一些文本内容和集群访问权限,就把它指向了这个正在进行中的事故。Claude 逐一检查运行中的任务、逐个测试环境配置项,最终定位到了一个导致崩溃的冷门调试标志位,稳定地复现了问题,并确认了修复方案。Claude 大约花了两小时,完成了通常需要两到三天的工作。

第二个标准是写出其他工程师能看懂并在此基础上继续开发的代码。在这一点上,人类和 AI 之间的差距仍然存在,但正在快速缩小。Anthropic 内部并非完全一致,但许多人认为:2025 年末时 Claude 写的代码质量仍然不如 Anthropic 人类工程师的水平,而到了今天大致达到了同等水平。我们预计年内 Claude 的代码质量将超过人类。

这已经改变了 Anthropic 审查自身代码的方式。我们对代码库的变更提交,现在会先经过一个自动化的 Claude 审查器,它会在代码合并前检查 Bug、安全漏洞和其他缺陷。我们用这个工具做了一次回溯分析,发现如果对代码库的每一次变更都做自动 Claude 审查,大约三分之一曾经在 claude.ai 上引发过事故的 Bug 本可以在进入生产环境之前就被拦截。而写出那些代码的工程师,是全世界构建这类系统*秀的人。Claude 现在正在捕捉他们遗漏的错误。

"2025 年末,Claude 写的代码质量还略逊于 Anthropic 人类工程师的代码,到今天大致持平,我们预计年内将明确超越。"

Claude 擅长在他人设定好目标后执行实验。

每次 Anthropic 发布模型,我们都会跑同一套测试:给 Claude 一段训练小型 AI 模型的代码,要求它在通过同样的正确性检查的前提下,让这段代码跑得尽可能快。目标和成功指标是预先固定的,Claude 的任务是通过重写代码、运行、计时、反复迭代来找到加速方案。这是一个微缩版的实验研究循环。

2025 年 5 月,Claude Opus 4 平均将代码速度提升了约 3 倍。到 2026 年 4 月,Claude Mythos Preview 达到了约 52 倍。作为参照,一名熟练的人类研究员需要四到八小时才能达到 4 倍。在研究工作流的这个环节,在一个清晰定义的实验框架内进行优化。

Claude 在不到一年的时间里,从"非常有帮助"变成了"超越人类"。

"现在的格局大致是这样的:人类有想法,模型能够以比以前快一个数量级的速度去实现、测试和验证这些想法。"

Claude 在自主提出实验方面也越来越强。

2026 年 4 月,Anthropic 发表了* Claude 端到端独立完成开放式研究项目的案例。由 Claude 驱动的智能体被交给了一个 AI 安全方向的开放问题,大致是"一个较弱的模型能否可靠地监督一个更强的模型",然后被放手去解决。这个过程涉及提出假设、测试假设、与并行智能体共享发现、反复迭代。

这项任务有一个明确的表现"下限"和"上限":下限是弱监督器独自工作的表现,上限是强模型在正确答案上训练后的表现。两位人类研究员用了大约一周时间,弥合了大约 23% 的差距;智能体们则在累计 800 小时的工作和大约 18000 美元的算力消耗下,弥合了 97%。

这项工作有一些值得注意的局限:结果没有干净地迁移到生产规模的模型上,而且问题的选择和评分标准仍然是人类制定的。但在这些边界之内,每一个实验都是智能体自行设计的。人类*实质性发挥的作用,只是确定研究方向。

“这些工作 Claude 几乎在一到两天内就完成了,我几乎没怎么插手。我觉得如果一个初级同事在同样的时间里交回这样的结果,我会小有惊喜。未来已经到了。”

Claude 在将研究会话引向有价值发现方面越来越出色。

我们检视了 2026 年 1 月至 3 月间的真实 Claude Code 会话,这些会话中 Anthropic 研究员与 Claude 协作解决一个开放式的探索性问题——比如查明某次训练运行为何持续崩溃,或某个模型在基准测试上表现不佳的原因。

在每个案例中,我们都找到了一个研究员"绕了弯路"的时刻:他们追了一个方向,导致会话偏离正轨,之后才回到正确路径上。然后我们只将偏离之前的工作内容展示给不同版本的 Claude 模型,问它下一步会怎么做。另一个能看到整个会话最终走向的 Claude 实例则负责评判:是 AI 还是人类给出了更好的下一步建议。

由于我们刻意选取的(n=129)都是人类判断有改进空间的时刻,这并不是一个模型与人类判断力之间的公平对比。这些时刻给我们提供的,是一组真实的、有挑战性的情境——正确的下一步并不显而易见,而人类的选择可以作为一个有用的参照标尺来比较模型随时间推移的进步。

按照这个指标,2025 年 11 月我们*的模型(Opus 4.5)有 51% 的时间给出了比人类更好的选择;到 2026 年 4 月(Mythos Preview),这个比例增长到 64%。研究的日常工作在很大程度上就是这样一连串"下一步决策"的链条,因此这是一个衡量模型最终能否独立开展调查的相关指标。我们将这一结果视为一个早期信号:AI 系统正在越来越擅长做出 AI 研究所依赖的那种判断。

"就目前而言,人类的比较优势仍然在于看到更大的图景,在直接任务的范围之外去思考。"

未来 Anthropic 的工作可能是什么样?

证据表明,在 AI 开发流程的每一步中,人类的角色都在收窄。一旦人类和 AI 编写的代码质量达到同等水平,人类将完全停止写代码,转而只做审查。但如果他们审查代码的速度跟不上 Claude 生成代码的速度,人工审查就会成为 AI 开发的新瓶颈。同样的,当 Claude 能够自己运行实验时,问题就变成了"这些实验中哪些值得去做?"

简单来说执行层面的工作,写代码、跑实验、产出结果,在人力时间上的成本已经趋近于零,尽管在算力层面仍然有成本。

人类目前仍保有比较优势的领域是研究品味和判断力:选择哪些问题重要、哪些结果可信、什么时候一条路走不通该及时止损。

"工作(和生活)过去运行在人与人之间小恩小惠的礼物经济上。'能帮我把这个脚本跑起来吗?'……每一次都创造一点点人情债,一点点彼此的联结。Claude 更快,它不产生任何人情债,但每一次这样的替代,都是一次人际协作的机会的失去。"

"在一切顺利的日子里,我忍不住觉得自己做的事都不重要了,一切都被自动化了,而且比我做得更好更快。但总有些日子,所有东西都在崩溃,我不知道为什么,那时候我才意识到,我已经不太清楚自己到底一直在干什么了。"

如果我们错了呢?

对上述证据一个自然的反驳是:仍然掌握在人类手中的那部分工作,选择要解决哪些问题才是最关键的。没有这种判断力,Claude 只是一个能干的助手,而非一个能独立驱动 AI 进步的系统。

今天的训练方法和架构能否释放这种能力,确实尚不清楚。但 AI 的进步很少依靠"灵光一现"。在 AI 的近代史上确实有过几次这样的时刻,比如 Transformer 架构和混合专家模型,但这种范式级的突破相隔数年才出现一次。在两次突破之间,大部分进展都是渐进式的:我们把某个东西做大,看看哪里会出问题,修好它,再试一次。而这恰恰是 Claude 现在最擅长的工作流。爱迪生说天才是 1% 的灵感加 99% 的汗水。但我们看到的是,那 99% 的汗水正在被越来越多地自动化。

事实已经越来越清楚:推动前沿进步的工作中,相当大一部分是可自动化的。大规模研究进展在很大程度上取决于工具和资源,它们决定了你能多快地运行实验、同时运行多少个、以及多快拿到结果。

即使假设 Claude 永远无法拥有良好的研究品味,对我们证据的保守解读仍然意味着一种复合式的加速。如果人类将大部分时间花在仅占个位数百分比的方向设定工作上,而 Claude 处理剩下的一切,那就意味着每位工程师或研究员所驾驭的工作规模远超从前。我们看到的证据表明,Anthropic 的员工既在更快地推进,也在覆盖更广泛的领域。实际上,这意味着 AI 已经让 Anthropic 比有效 AI 工具出现之前运转得快得多。

更大胆的解读则是:Claude 在研究判断力上的早期改进信号——虽然今天还很有限,但这恰恰说明这项能力本身也在提升。所谓"研究品味"可能只是又一项 AI 能力,AI 系统会在这上面失败一段时间,然后变好。我们在其他定性技能上见过同样的模式,比如 AI 系统理解一个笑话为什么好笑、展现心智理论能力、以及解开语言谜题。

可能的未来

接下来会发生什么,取决于两件事:趋势是否延续,以及如果延续,我们选择如何应对。我们至少可以设想三种未来情景:

情景一:趋势停滞,但当前 AI 能力已经广泛扩散

本文中出现了许多指数级增长的轨迹。但这些轨迹实际上可能是 S 曲线。我们也许正在逼近曲线的拐弯处——回报递减,增长曲线先趋平、再走平。那种区分一个合格研究员和一个*研究员的判断力,可能是一种无法通过堆叠算力和数据等训练资源来获得的能力。如果确实如此,突破这一瓶颈将需要新的思路,比如一种取代当前所有前沿模型所使用的 Transformer 架构的全新架构范式。

另一种可能是,AI 进步的约束不在模型本身,而在供应链:推进和普及前沿技术所需的能源和算力,可能超出了当前的供给能力。芯片制造、电网扩容或互联带宽的速度可能才是真正的瓶颈,而非智能本身。我们也不能排除某种外部冲击对 AI 生态系统造成严重拖累,比如算力或电力供应的突然收缩,这两者中的任何一种都会减缓进步,并使实验室的前瞻性投资变得更加昂贵。又或者存在某种我们尚未预见到的其他障碍。

即使模型能力被冻结在今天的水平,我们也预期世界将发生重大变化。Project Glasswing 就是一个早期信号:在启动后的最初几周里,Mythos Preview 在全球最重要的系统中发现了超过一万个高危和严重级别的软件漏洞,以至于网络安全防御的瓶颈已经从发现漏洞转移到了能否足够快地修补它们。

而当前这些模型向更广泛经济领域的扩散仍处于早期阶段,在那个世界里,一家 100 人的公司越来越有可能做出 1000 人公司的体量,因为每个员工都将坐在一个由智能体组成的金字塔的顶端。

我们列出这个情景是为了完整性,但我们并不认为它的可能性很高。我们能测量到的每一项能力,包括那些感觉更"软"的,比如代码质量和开放式任务的成功率,到目前为止都遵循着同一条曲线。我们还没有看到这条曲线出现弯折。在我们考虑的三种未来中,这一种会给各国政府和社会留出最多的适应时间。我们更担心的是接下来两种,它们的推进速度更快,留给准备的窗口也小得多。

情景二:AI 实验室持续获得复合效率增益

在这个情景中,AI 开发被大幅自动化,但人类继续设定研究方向、评判研究结果。使用 AI 系统的组织将随着时间推移变得高效得多,因此我们可以预期每个人身上出现显著的生产力乘数效应。100 人的公司可以完成一万人甚至十万人组织的工作量。这将彻底改变知识工作的面貌,但也可能被用于有害目的,从对全体国民的威权式监控,到针对每一个个体量身定制的操纵行动,这种行动的规模远超任何人类团队的能力上限。Anthropic 这样的公司中,人类的角色将发生转变。人们将与 AI 系统搭档来扩展研究规模、产生新的洞见,并共同构建用于验证 AI 输出可信度的系统。

我们呈现的证据表明,我们很可能正在进入这个情景。但加速一个流程的某个环节,往往只是把瓶颈转移到了别处:整体速度受制于那些没有被加速的部分。在计算机科学中,这被称为阿姆达尔定律,同样的逻辑也适用于组织。Anthropic 已经遭遇了阿姆达尔定律的一个典型症状:当我们在组织内部推送越来越多的代码时,人工代码审查成了新的瓶颈。

我们在工程之外也遇到了同样的摩擦。由于 Anthropic 员工与高能力模型的协作,新的想法、计划、工具和模拟呈爆发式增长,远远超出了我们有能力去追踪的范围。一个组织能多快地发现并消除这些瓶颈,这本身可能是一种随时间推移会不断精进的技能,也可能成为任何组织最重要的能力。

情景三:AI 系统自身具备完全的递归自我改进能力,并开始构建自己的继任者

如果推动能力进步的技术趋势持续下去,并且 AI 系统能够发展出蕴含人类变革性创造力的那些能力,那么 AI 系统有可能设计和改进自身。

在这个世界里,AI 发展的速度将完全取决于可用算力(或者在算法训练和推理层面发现各种效率提升的速度)。人类在 AI 开发中的角色将大幅缩减,大部分精力可能转向对一个不断扩张的 AI "虚拟实验室"进行监督、验证和确认。我们预计,一个有能力自动化 AI 研发的系统,其技能也能迁移到其他科学领域,从而开始革新更多学科。

在这个未来中,对齐问题会如何被解决——或者无法被解决,是我们最不确定的部分。模型可能被证明足够对齐,也足够具备研究品味,从而发现并实施我们尚未触及的新颖解决方案。它们也可能足够审慎,在条件不成熟时选择暂停开发。另一种可能性是,今天模型中偶尔出现的对齐偏差,在模型构建自己继任者的过程中不断累积,但越来越难以被理解,直到我们失去对它们的控制。也有可能,我们根本无法构建、整合和验证那些我们需要的工具,去判断自己到底处于哪条趋势线上。

我们对这个世界会是什么样子缺乏好的直觉,因为我们当前的经济体系是由人类和人类构建的工具驱动的。就其本质而言,随着其能力全面超越人类,一个由快速递归自我改进驱动的世界,可能会被那个自我改进的模型所主导,并在更广泛的经济体系中扩散。如果人类劳动不再具有竞争力,很难预测经济将呈现什么面貌。

即使模型开发变得完全自动化和递归化,我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能让 Machines of Loving Grace 中描绘的许多愿景得以实现,在某些领域甚至很快。我们预计具身智能(即机器人技术)可能会紧随递归智能而来,并走上一条类似的"投入递减而回报递增"的路径。更强大的智能可能帮助我们更快地在物理世界中建造事物、更高效地开展救命药物的临床试验、发展出新型的协作形式。

但仅仅实现递归改进,并不意味着工业生产、社会组织或市场运行方式会立即改变。再多的智能也无法缩短一种药物在几十年使用中才能暴露的效应,无法让选举早于宪法规定的时间举行,也无法在一个周末把陌生人变成老朋友。对大多数人而言,这个未来的体感速度,仍然由瓶颈决定——即使上游的实验室已经在以算力的速度运转。这个碰撞点以越来越快速度构建自身的递归智能遭遇人类世界、人际关系和治理结构,这一切是这个未来中我们同样无法预测的另一面。

我们应该怎么做?

如果能有效地减缓这项技术的发展速度,从而为我们争取更多时间来应对其巨大影响,我们认为这很可能是一件好事。但如果减速只是让最不谨慎的参与者在技术上追赶上来,那最终可能让所有人都更不安全。在没有全球协调机制的情况下,企业和政府将不得不在竞争压力和地缘政治压力下做出关于安全的艰难决定。

我们相信,让世界拥有减缓甚至暂时暂停前沿 AI 开发的选项,从而让社会结构和对齐研究能跟上技术前进的步伐,对世界是有益的。Anthropic 研究院与其他许多机构合作开展研究并采取行动,帮助建立一个可信的减速或暂停所需要的体系。这些体系将使前沿 AI 开发者能够核实其他参与者是否在全球范围内确实已经停止或减速,以及是否有不良行为者利用协调减速的掩护秘密抢跑。如果这样的体系存在,我们预计我们会选择减速或暂时暂停,当然前提是其他处于或接近前沿的开发者也以可验证的方式这样做。

有意义的减速或暂停需要多家分处多个国家、处于或接近前沿资源充沛的实验室在相同条件下达成停止协议。它还要求各方能够验证其他方确实已经停止。由于 AI 系统的独特特性,这个军控问题中的可探测性(一个低于可验证性的标准)要素,比其他技术困难得多。

训练运行比导弹发射井更容易隐藏,其投入物都是通用的,而且在别人暂停时悄悄继续的诱惑巨大,因为谁在别人停下时继续前进,谁就可能继承*地位。一个可信的暂停还必须明确规定什么条件触发它、什么条件解除它、以及由谁来裁定。

这些在原则上都未必是不可能的,世界曾经为其他复杂技术建立过核查机制(例如中导条约),但那些机制花了几十年才建立起基础设施和信任。我们没有那么多时间。

相比之下,一家实验室的单方面暂停可以立即执行,但效果要有限得多:它会改变谁是领跑者,但不会创造出当前所缺少的更广泛的审议进程。

在未来几个月,我们将组织政策制定者、研究者、公民社会和其他 AI 公司之间的对话,共同帮助回答本文提出的一些问题:尤其是围绕完全递归自我改进以及如何创造更好的协调与审议选项。

我们会公开讨论的成果。共同探究这些问题的窗口就在眼前,而 AI 公司之外的人也应该参与这场讨论。

【本文由投资界合作伙伴微信公众号:数字生命卡兹克授权发布,本平台仅提供信息存储服务。】
【免责声明】:本文不构成任何投资建议。市场有风险,投资需谨慎。
如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。