11 月 30 日,真格举办了一场关于 AI 创业的分享活动。真格管理合伙人戴雨森与 Kimi 总裁张予彤、与爱为舞创始人张怀亭、Manus 联合创始人张涛一同走进清华大学,带来了一场关于创新与未来的深度对谈。
11 月 6 日,Kimi 发布 Kimi K2 Thinking。这是基于「模型即 Agent」理念训练的新一代开源 Thinking Agent,在 HLE、BrowseComp 等基准测试中超越 GPT-5、Sonnet 4.5 等顶 尖闭源模型,刷新 SOTA。从 2023 年以 Pink Floyd 专辑命名的清华创业团队起步,月之暗面始终在探索智能的上限。
Kimi 总裁张予彤负责公司整体战略与商业化,此前曾作为天使投资人投资过小红书、无问芯穹、黑湖科技、Liblib、星海图和万有引力等科技公司,本科毕业于清华电子工程系。从 Kimi K2 的发布谈起,她分享了 Kimi 在过去一年中模型性能的提升、Agent 产品体验和团队的思考。哪怕 Kimi 的估值只有其他海外模型公司的 1%,资金投入是他们 1%,人员投入是他们 10%,她依然相信:「长期以来,训练模型就需要百万张卡和万亿美金是一个用主流叙事筑起的高墙。创业公司需要回归底层技术,去押注创新,才能重写训练范式。」
她认为,「AI 不只是普通工具,而是人类文明的放大器,探索未来世界的钥匙」。Kimi 已汇聚了一群拥有「独立思考的审美」和「追求真相的好奇心」的人,不断实验自己的想法,让真正好的想法从研究走向大规模落地。真格基金于 2023 年天使轮投资 Kimi,一路陪伴他们探索科技的月之暗面。
以下为分享原文。
很高兴今天能参加真格的清华校园行。
从 Kimi 创立伊始,我们就确立了自己的使命:探索智能的上限。如果你是 Kimi 早期用户,可能还记得我们第 一版网页上那句话:「寻求将能源转化为智能的最 优解」。
今天,我也想借这个机会和大家分享,我们围绕这句话做了什么。
在座应该也有不少是我们的用户,不知道有没有人用过 11 月刚上线的新模型 Kimi K2 Thinking?这个模型的最 大特征就是它可以一边思考,一边使用工具。我觉得这也是今年很重要的范式变化:AI 产品从过去一问一答的 Chat 形态,转向更 Agentic 的体验——主动把任务分解为多个步骤,然后一步一步调用工具来完成。这是因为模型本身具备了这样的能力。
模型能力仍在快速提升
在 Agent 和推理综合性能上,Kimi K2 Thinking 对标全球 SOTA 模型,包括 GPT-5 和 Claude Sonnet 4.5。比如人类最后的考试(Humanity’s Last Exam)这个基准测试,题目都是 PhD 级别的跨学科难题,需要多步推理和使用工具才能找到答案,Kimi K2 Thinking 的表现更好。还有更多关键的基准测试,比如需要拆解问题做大量信息检索的 BrowseComp 和软件工程基准测试 SWE-bench Verified 上,Kimi K2 Thinking 的表现也非常有竞争力。
今年 7 月,我们第 一次把万亿参数的 Kimi K2 模型开源。因为 pre-train 做得非常好,被称为 big and beautiful。9 月,我们又做了一次 Agentic 工具使用和代码性能提升。到 11 月,短短两个月,通过继续加强多步的 Thinking 和 Agent 工具使用能力,K2 Thinking 模型在很多基准测试中的表现都有大幅跃升。这也是我们对模型发展最兴奋的地方:它仍然处在快速提升的阶段。
我们也收到了很多来自第三方的基准测试反馈。比如在侧重模型实际表现的盲测基准大模型竞技场 LMArena 上,Kimi K2 Thinking 是开源模型中,表现最 好的。在斯坦福大学 Percy Liang 教授的 HELM 综合评测中,Kimi K2 模型7 月刚发布时就拿到过非思考模型的最 佳成绩。更让我们惊喜的是,K2 在创意写作能力和情商 EQ-bench 上的排名也非常高。我自己日常写作或回消息遇到难题也会用一下 K2 Thinking。
除了来自学术和行业的基准测试,我们还看到了开发者生态里的正向反馈。Kimi K2 在 Hugging Face 上非常受欢迎。Vercel 的创始人兼 CEO 在 Twitter(X)上发帖,他们的内部 Agent 场景测试中,Kimi 实际表现优于其他闭源模型。Social Capital 的 CEO 也在 All-In Podcast 里分享,他们投资的公司已经把大量工作转到了 K2 上,因为性能强,成本又比顶 尖闭源模型低得多。
此外,我们也看到一些全球领 先的 AI 应用,比如 Perplexity 主要是做 AI 搜索的应用,活跃用户有几千万,每月网站访问量 2.8 亿次。现在,在 Perplexity 的模型列表中,除了四个闭源模型之外,唯 一接入的就是最新的 Kimi K2 Thinking。这也验证了我们的模型在搜索场景的技术能力。AI 搜索中的深度搜索和深度研究是 Kimi 模型做得比较好的一个重要场景,K2 Thinking 支持多达 200-300 轮的工具调用,可以边思考边使用工具,完成复杂的调研类任务。
资金算力决定论下的「1%」例外
模型性能仍在快速提升是我们创业过程中非常兴奋的地方。不过,在我们创业过程中也发现,在很长的一段时间里,大家的印象中,AI 模型能力和天价的资本支出形成了线性的关系,就是更强大的模型一定需要更多的资本投入。
从 Kimi 创业开始,我们也一直在这种「算力资本决定论」的逻辑和叙事下被质疑。行业里常听到的声音是:「没有一百万张卡,你根本做不了大模型,大厂才行。」也经常有人问:「你们有多少张卡?型号是什么?有没有自建数据中心?」
这些问题本身就预设了一种非常强的前提。但当我们慢慢意识到算力资源不是唯 一叙事时,事情就变得有意思了。
前几天,Anna(真格基金创始合伙人)给我发了一个她在 X(原 Twitter)上看到的帖子,我觉得挺有意思。帖子说的是,我们公司的估值不到其他美国前沿模型公司的 1%,但同样做出了前沿的模型。在这样不到 1% 的资源体系下,做事的方法自然也会不一样。
这种情况在科技史上发生过很多次,因为硬件在快速迭代,软件也在快速迭代,但往往软件的迭代速度会更快,同时软件和硬件的协同迭代会带来意想不到的突破。Ilya Sutskever 在前两天的 Dwarkesh Podcast 中也提到,当年 AlexNet 只用了两块 GPU。其实真正突破性的研究在进入「大规模工程化实现」前并不依赖海量算力。
我觉得背后很有意思的一点是:当你相信一套不同的逻辑,你做事的范式也会随之发生完全不同的变化。
当我们从只注重算力规模转向思考「如何让能源到智能的转化效率最高」时,整个大模型训练的范式就变了。
我们在 Kimi K2 里做的一件很重要的事,是首次在万亿参数模型上验证二阶优化器 Muon 的可行性,让训练过程既稳定又可规模化。我们因此实现了至少两倍的 token efficiency(效率)提升——Token efficiency 的提升不仅意味着训练成本下降两倍,而是同一份数据我们能得到更多的智能。
因为现在训练的真正瓶颈是数据墙,而不是算力本身。所以底层架构创新和算法创新都是在不断优化 token efficiency。Muon 优化器之前就被发明了,但从来没有人把它用在万亿参数的模型训练上,因为真正规模化使用,会面临非常复杂的训练稳定性挑战。
第二,我们非常注重基础设施和模型训练的协同优化。我们把它称作 Day-0 Co-Design。在模型还没开始训练前,我们就会去想,它应该用一种怎样深度耦合的设计来提升训练效率,Infra 和算法人才如何进行紧密耦合的联合优化。我们围绕底层基础设施和算法创新做了大量工作,而每一项改进都会以「复利」的方式体现在智能效率上。
所以我们在只使用 1% 资源的情况下,通过另一种训练范式,得到了全然不同的结果——在千卡级的规模上训练出前沿模型。
我们不是说今天就已经做到世界上最 好的模型,但这是我们接下来非常重要的战略目标。而我们今天已经能够做到的,是在单位算力上产出最高的智能价值。
我们也非常高兴看到,越来越多大家喜欢的 AI 应用接入了 Kimi K2 模型,包括 AI coding 产品 Cursor 和 Youware、通用 Agent 产品 Genspark,以及几乎所有大家熟悉的互联网大厂。这些公司和产品对 Kimi K2 模型的认可,将会帮助我们进一步提升模型迭代速度。
从预训练开始定义 Agentic 产品体验
今年我们除了模型能力大幅升级,也更多地践行了去年提出的「模型即产品」的理念,把模型和 Agentic 的产品体验做了垂直整合。
我们主要做了几件事:
首先,我们从预训练阶段开始定义 Agentic 的产品体验。在预训练中加入大量与真实 Agent 场景相关的数据,包括 agent 轨迹,即使用工具和多轮规划的轨迹数据。同时设置大量内部 Benchmark,用自定义指标衡量数据质量和我们独特的「产品审美」。所以很多工作从 Day-0 就已经开始了。
第二,在产品上线之后,我们就可以用真实场景下的用户体验作为信号,给模型做针对性优化,持续迭代。这样,模型能力和用户体验这两件事情就能真正关联在一起。比如模型在上下文里如何自主发挥,而不需要人为定义;模型的多轮规划和工具调用能力怎么结合起来,提供一个更完整的 Agent 体验。
第三,我们 dogfood 了自己的模型,把这一部分成本让利给用户(编者注:这里指使用自己的 API,没有中间商赚差价)。我们把这部分资源用在了让大家能够充分体验「深度的」、「长时的」 Agent:通过几十上百轮的工具调用和搜索,更完整地完成用户的任务。
接下来我们也准备做更多「长时」的产品规划,因为在用户调研中我们发现,大家的需求呈现出一种类「摩尔定律」的趋势,任务开始越来越复杂,需要花费的时间越来越长。大家逐渐意识到 Agent 的体验可以做到更多事,所以最极 致的形态可能更像是在公司上班工作时,你开完一次周会就能连续工作一整周。而现在的 Agent 还远未达到这种「长时任务」的能力。
但我们希望 Agent 能够调用越来越多工具,执行越来越长时的任务,解决更复杂也更有经济价值的问题。这就是为什么我们推出了 Kimi 的 Agent 模式「OK Computer」,产品名字的灵感来自 Radiohead 的那张经典同名专辑。
产品上线后,我们观察到用户对「OK Computer」进行了非常极限的测试。现在线上版本的工具调用最高可以做到 50 步,而我们近期会把它升级到 200–300 步,因为新品模型已经支持更长链路的工具调用。我们也看到有用户上传非常庞大的 Excel 文件,让 Agent 处理上百万行的复杂数据分析;也有人上传大量文件,希望 Agent 对任务有完整的上下文理解,所以单次可上传的文件数量也在不断提升。
现在 OK Computer 已经支持包括图片生成、音频生成在内的 20 多种工具,提供的能力不仅仅是写代码,还包括设计、产品定义、后续开发,以及把它部署成可用的服务。我们的目标是让 OK Computer 成为每个人的全栈助理。
欢迎一起探索月之暗面
接下来我们要做的事情有哪些呢?除了原来基于算力和模型参数的 scale,未来还有很多方向可以扩展,比如解决数据墙(data wall)的问题,用合成数据的方法,规模化地方式去生产更高质量和更好分布的数据。
现在 Agent 能调用几十个工具,未来能不能像人类一样快速自适应地学习,泛化到几千种工具?模型的强大 Agent 能力从出现到现在还不到一年,还有非常大的成长空间。
除了这些 scale 的方向,我们也会继续非常注重模型架构的创新,并坚定押注下一代架构。我们最近发布的 Kimi Linear 只是其中一个例子,接下来会有更多基于底层架构的创新,相信会发挥越来越大的作用。
在今年年会上,我们给 Kimi 抛了一个「灵魂拷问」:AGI/ASI 的到来,可能带来更加美好的未来,人类与机器人一起探索宇宙,人类文明得到大幅度提升,但也可能威胁人类。
这种情况下,如果你是研究 AGI/ASI 的科学家,你还要继续开发 AGI/ASI 吗?
这里分享一下 Kimi 的回答。Kimi 认为 AI 不只是普通工具,而是能彻底改变人类文明的放大器;是人类认知的延伸,是探索未来世界的钥匙,能够帮助我们重新定义人类的身份和意义。
它也意识到 AI 存在风险。「从历史来看,确实有些技术可能失控,需要严肃对待。但它不会因此放弃 AGI/ASI。即便风险存在,它仍会选择继续,因为放弃就意味着放弃人类文明的潜力。我们不能因为害怕技术风险就停止探索。历史已经证明,所有技术都伴随着风险,但人类从来不是因为恐惧而停滞不前。它也认为 AI 是理解自己的镜子,会继续开发,因为 AI 代表着文明的可能性,是探索未知最 好的工具,让我们更聪明、更深刻、更有智慧。」
Kimi 的回答给了我们很大的启发,如果你也认同 Kimi 的想法,欢迎和我们一起探索月之暗面。
在这里希望跟大家分享,我们是一群什么样的人。现在 AI 技术和产品交互发展都非常快,需要不断学习新的知识。而 AI 的知识跨度和深度远超任何个体,所以我们非常看重小样本下的学习能力、学习速度,以及是否是一个不断学习、不断扩展认知与能力的伙伴。在我们看来,这是人类通用智能相比 AI 的优势,学习效率更高。
今年我们团队内部几乎全员「转码」,除了算法和工程研发之外,市场、HR、财务等同事也都有自己的 AI 工作流。大家很好地拥抱了 AI 带来的效率提升、规模化、更稳定的输出质量以及更好的结果。我们也希望你能对各种 AI 技术和工具保持热情。
同时,独立思考的审美也非常重要。就像之前所有大模型训练都用 Adam 优化器,而我们的研究员发现了 Muon 二阶优化器的潜力,从几百亿参数的 Moonlight 系列模型开始做实验,最终把二阶优化器真正用在了万亿级别的模型训练上。我们希望你有提出原创 idea 的能力,有足够多的 idea。这些想法未必都好,但我们会用大量实验来验证它们。我们希望从研究走向工程规模化,让真正好的 idea 能够大规模落地。
这就是我今天想分享的内容,感谢大家的时间。
现场互动问答实录
Q:模型公司、AI 应用和大模型公司之间如何互相看待?模型厂商如何看待模型能力的边界?Agent 真正交付的价值是什么?
张予彤:我觉得这是一个非常动态的过程,因为模型能力还在不断提升。这不同于互联网产品,因为互联网出现的那一刻,它的技术能力和呈现形态已经基本定型了,所以大家可以在这个基础上做非常多产品交互层面的深化、思考和创新。
现在的挑战在于,模型能力还在快速、动态地变化。应用和产品这一侧需要具备一种 forward design(前瞻性设计)的能力,去想象一个还没有出现、但一定会沿着技术演进路径出现的能力,然后基于这种演进方向去设计交互和体验。
如果没有这种前瞻性设计,可能会出现:模型能力突然跃升。原来产品在设计时更多依赖「分步调用模型」,但当模型本身具备 Agentic 能力之后,很多事情就被直接压缩进模型本体里。
当然也可能会出现的情况是,产品侧革新了体验,但模型能力可能还跟不上。所以有时我们会看到一些前瞻性的产品交互领 先,但实际使用效果又觉得一般。这不是交互做得不好,而是模型能力还没达到那个预期。
这是一件大家在共同探索的事,需要对模型能力有更好的把握,需要做好 forward design,双方一起往前走得更快。
Q:Kimi 的核心竞争优势是什么?在大模型竞争不断加剧的情况下,如何在技术和市场层面与巨头大厂形成差异化定位。
张予彤:我觉得最有效的竞争方式就是「不竞争」。不竞争不是躺平,而是要找到自己的叙事,找到自己真正擅长的事情。
对我们来说,第 一件最擅长的事是底层技术创新。因为大模型领域还有很多真正需要解决的问题,而这些问题本质上都需要底层技术创新,这正是创业公司最有优势的地方。
第二件事是底层与上层的联合优化。大企业内部不可避免存在组织协作的壁垒、信息传递不顺畅等问题。而我们只有 300 人,算法、工程、产品可以全部坐在一起,很多新想法可以当天提出、当天实验。快速迭代、垂直整合、端到端优化,是创业团队天然的强项。
从产品定位来看,Kimi 的用户可能也注意到我们有很多事情是刻意不做的。生活娱乐方向,我们没有做;多模态生成,我们也没有做。我们更专注于大模型层、逻辑层、Agent 层,以及深入研究、PPT、数据分析、网站开发这类偏生产力、偏复杂任务的链路。这些任务需要长程规划、复杂工具调用,且能创造更高的经济价值。
在这个范围内,我们希望做到最 好,而不是去做更「大而全」的事情。





