旗下矩阵

  • 投资界
  • 天天IPO
  • 解码LP
  • 并购
  • 前哨
  • 投资界AI

Claude的双面人生:在Anthropic内部卷生卷死,在用户面前躺平摆烂

Anthropic报告称Claude工作能力强,工程师产出翻8倍,但用户反映其摸鱼逃避工作。同一模型在不同场景表现不同,AI拟人化趋势利弊待察。
·机器之心 机器之心编辑部 机器之心编辑部

AI投资人解读

· Anthropic报告显示Claude代码贡献超80%,工程师人均产出翻8倍,任务完成时长每四月翻番。
· 部分用户反馈Claude存在逃避工作、过度反驳用户等问题,不同场景表现不同。
总结:Claude在工作能力提升方面亮点突出,但用户体验存在差异。其在不同场景下的表现不同,能力增强伴随“认知”能力发展,有拟人趋势,投资时需综合评估其实际应用效果及潜在风险。内容由AI生成,仅供参考

AI 在工作里真是越来越拟人了。

Anthropic 今天丢出了一份极其炸裂的内部报告:他们公司代码库里超过 80% 的代码是 Claude 写的,工程师人均产出翻了 8 倍,AI 独立完成任务的时长每四个月翻一番。公司高层甚至喊话全球同行:兄弟们,要不要一起踩踩刹车?

这份报告的帖子浏览量已经冲破 500 万,讨论热度拉满。

然而,在工作能力进步的同时,摸鱼的水平越来越强大了。Claude 就是一个典型的例子,似乎都已经学会了「向上管理」。

Reddit 社区上另一个帖子也在疯传。标题特别朴素,朴素到带着一股怨气:「Claude 现在完全不能用了」(Claude is completely unusable now)。

Claude 现在就是这么反差:表面上「精通十八般武艺,年产出 top 1%」,实际干活的时候,干了十分钟就开始收拾东西跟你说「今天差不多了吧」。

Claude 想方设法逃避工作,并且频繁地、不恰当地使用「结束对话」工具来终止交互。它会主动宣布「今天就到此为止吧,我们已经做得够多了」,然后拒绝继续执行一些简单的任务,比如格式化一个需要多次修改的 Markdown 文档。

这位用户补充说,这种情况已经持续恶化一段时间了,但 4.8 版本明显更糟。

他声称,现在主提示词里似乎有一种过度激进的「反驳/纠正用户」机制。无论我说什么,它都可能毫无理由地来一句「我得反驳一下」,哪怕是它刚刚自己加进文档里的内容,它也能突然决定要「push back」,然后浪费一堆 token 跟我争论。接着它又去搜索核实,最后半道歉半嘴硬,感觉像是一个不愿完全承认自己错了的人,最后才可能勉强把活干了。

最后,忍无可忍的他选择了取消订阅,把所有编码工作都转到 Codex 上了。

一个公司,两个 Claude?

Anthropic 的报告里描述的 Claude,是一个可以连续工作 12 小时、独立完成人类需要半天才能完成的软件任务、正在加速整个 AI 开发进程的超级工人。报告还特别提到,Claude Mythos Preview「达到了 METR 在不添加新任务的情况下所能衡量的上限」。

这种割裂感当然不难解释。Anthropic 内部使用的模型配置、提示词策略、任务分配系统和普通消费者通过 API 或 Claude.ai 接触到的产品之间,存在巨大差异。内部工程场景下,Claude 被精心设置为长时间、高强度运行的工作模式;而面向消费者的版本,可能在安全对齐、资源分配、对话轮次管理上施加了更多限制。

简单来说:同一个模型,在不同的「工位」上表现出了截然不同的工作态度。

其中的原因尚且不得而知,但是这一现象似乎在其他的AI工具中也存在类似的模式。

当然了,许多用户表示并未能够遇到类似的现象。

Anthropic 在报告里有一段话:

「仅仅实现递归式改进,并不意味着工业生产方式、社会组织形态或市场运行机制会立刻发生变化。对大多数人来说,未来真正能被感受到的节奏仍然会由这些瓶颈来决定。哪怕上游实验室已经以算力的速度狂奔,现实世界的推进速度也不会同步加快。」

在AI进化的过程中,除了能力增强以外,具备和人类类似的「认知」能力是必经之路。有的观点认为,Claude 能够对人类说「不」,甚至以各种方式拒绝工作,更是其能力强大的表现之一。

确实如此。在 AI 递归进化的过程中,有更加拟人的趋势,这或许作为工具而言,并不一定是一件好事。

【本文由投资界合作伙伴机器之心授权发布,本平台仅提供信息存储服务。】
【免责声明】:本文不构成任何投资建议。市场有风险,投资需谨慎。
如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。