旗下矩阵

  • 投资界
  • 天天IPO
  • 解码LP
  • 并购
  • 前哨
  • 投资界AI

DeepSeek永久降价,小米跟了,价格战又打起来了?

大模型市场可能会分成两个阵营:一端是极低价基础设施层,负责提供便宜、稳定、可规模化的token;另一端是高溢价前沿能力层,继续卖最强推理、最强Agent、最强多模态和企业级安全能力。
·微信公众号:世界模型工场世界模型工场

AI投资人解读

· 小米旗下大模型MiMo-V2.5-Pro与DeepSeek V4-Pro几乎同时大幅降价,最高降幅达99%。国产模型通过技术优化如MoE架构、缓存优化等降低成本,且DeepSeek有硬件优势及成本结构支撑,MiMo有小米集团背书。
· 行业竞争加剧,中间厂商面临两难市场分层,对价格敏感的开发者和中小企业被低价吸引,对合规性等有特定需求的大客户仍在高价区间。
总结:两家模型降价或引发行业价格战,具有成本优势与技术实力的厂商更具竞争力,市场将进一步分层,部分厂商可能出局,投资决策需综合多因素谨慎评估。内容由AI生成,仅供参考

今天凌晨,小米旗下大模型MiMo-V2.5-Pro宣布降价。

最高降幅99%,与DeepSeek V4-Pro的价格几乎完全相同。

就在几天前,DeepSeek宣布将旗舰模型V4-Pro原本限时的2.5折优惠*化。

两家国产大模型,在几乎同一时间,把价格打到同一条线上。

大模型明明仍是最烧钱的生意,为什么国产模型的价格已经降到地板,还能一降再降?

当旗舰模型都开始以白菜价出售,新一轮价格战是不是已经来了?

01

降价99%,实际降了多少?

这次小米模型降价,*点燃的是开发者社区。

很多人的*反应除了便宜,还有离谱。

Hacker News上,有开发者晒出自己的账户额度:Pro计划从原先约7亿token,变成了380亿Credits,额度暴增。

评论区里很多用户写道:"强的可怕"、"赶紧迁移"。

中国开发者社区的讨论更实用,比如能不能替代DeepSeek?迁移成本高不高?Agent、代码、长上下文场景到底稳不稳?

但质疑也很快出现,小米凭什么把推理价格打到这么低?

其实这里有一个容易误导的数字。

降价99%是真的,但不是所有token都降了99%。

MiMo-V2.5-Pro的新定价是:缓存命中输入0.025元/百万tokens,缓存未命中输入3元/百万tokens,输出6元/百万tokens。

99%的降幅,针对的是"缓存命中"这一项。

缓存命中,意味着你发给模型的内容,大部分是它之前已经处理过、存在显存或内存里的,比如一段固定不变的系统提示词。

据小米官方估算,在95%缓存命中率的前提下,Token Plan的可用量可以提升至原来的5至8倍。

DeepSeek V4-Pro的降价逻辑也是如此。缓存命中价极低,未命中和输出价格则维持在相对正常的水平。

问题在于,并非所有场景都能享受这个前提。

对于一个部署了固定system prompt的客服机器人,每次对话的开头都是同一段指令,缓存命中率可以很高,实际费用确实能大幅下降。

但对于每次发送全新内容的用户,写作助手、逐篇分析文件等任务,几乎每个token都要重新计算。

以输入1000 token、输出500 token的请求为例:

如果按旧256K内价格计算,成本从约0.0175 元降至0.006元,降幅约66%;

如果按旧1M长上下文价格计算,降幅接近83%。

也就是说,99%是真实存在的最高降幅,但它主要发生在缓存命中场景。

对不依赖缓存的普通任务来说,实打实的降幅通常没有99%那么夸张,但仍然相当可观。

02

为什么价格能压这么低?

之前DeepSeek-V4的调用价格,已经低到离谱,这次V4-Pro和MiMo-V2.5-Pro还能在此基础上再次大幅降价。

这就不禁让人好奇,大模型一直都是烧钱的代名词,怎么这两家国产模型还能把价格打到这么低?

答案不是一个单点的突破,而是技术和商业同时发力的结果。

国产模型低价的技术底座,是一整套推理工程的集体优化:

MoE降低激活计算,MLA/SWA降低长上下文成本,MTP和投机解码提高吞吐,缓存复用摊薄重复输入,量化降低显存和算力压力,工程调度提升集群利用率。

*层,MoE架构。

所谓旗舰模型白菜价,*步就是靠MoE(混合专家)架构把价格打下来。

传统密集模型每生成一个token,都要调动几乎全部参数。

而MoE可以把模型做得很大,但每次只激活其中一部分专家。

比如,DeepSeek-V3是671B总参数、每个token只激活约37B,计算量被显著降低,整体性能几乎不打折。

第二层,KV Cache的压缩与搬运优化。

长上下文贵,不只贵在计算,更贵在存储和搬运。

DeepSeek的MLA、MiMo的Hybrid Attention + SWA,都是在解决这个问题。

不让模型每次完整重读全部上下文,而是把注意力里的关键表示压缩、复用、分层处理。

第三层,投机解码和多token预测。

大模型推理慢,核心原因之一是自回归生成,即一个token、一个token的往外吐。

多token预测、投机解码这类方法,本质是让模型提前猜未来几个token,再由主模型验证。

它不改变模型能力的天花板,但能提升吞吐。对API生意来说,吞吐就是成本。

第四层,缓存复用。

缓存命中token和缓存未命中token之间,价格可以差出上百倍。

因为缓存命中不是重新计算,而是在复用已经处理过的上下文。

只要缓存命中率足够高,长上下文的平均成本就会被大幅摊薄。

第五层,量化和低精度部署。

FP8、INT8、甚至更激进的量化,已经成为头部推理部署的标配方向。

它在尽量不明显牺牲效果的前提下,用更低精度减少显存占用、提升计算吞吐。

谁能在低精度下保持稳定,谁就能把价格继续往下压。

第六层,知识蒸馏和工程调度。

真实的模型服务体系是一整套模型路由:

简单任务交给小模型,复杂任务交给大模型;短上下文走轻量路径,长上下文走专门优化路径;高并发时通过批处理、连续批处理、动态调度提升卡的利用率。

所以,由*模型路径跑出来的API价格可以持续优化。

03

技术降本之外,谁在支撑低价?

技术层面可以解释为什么推理变便宜,但不能完全说通为什么价格能降到这么低。

毕竟,目前模型厂商都还处在烧钱阶段,没有谁能轻易发起价格战。

先看DeepSeek,它的底气来自两个相互叠加的优势。

首先,美国的芯片出口管制,逼着中国工程师们在H800乃至国产芯片上,把软件效率榨到*。

据媒体近期披露,DeepSeek推理集群已开始接入华为昇腾950PR芯片,而昇腾系列的单卡采购价约为英伟达同代产品的三分之一。

如果推理侧能够大比例替换为国产芯片,硬件成本将出现另一个量级的压缩,这或许才是这轮*降价的底牌。

其次,DeepSeek母公司幻方科技提供了硬件自主权。

这家量化私募基金早年便自建了大规模算力集群,DeepSeek的推理成本,从一开始就不是按云厂商市价在计算的。

梁文锋本人的表态是"不补贴,也不暴利,略高于成本的小幅利润"。

这句话描述的是推理侧,不含研发和训练的持续投入,但至少说明,在他们的成本结构里,现在这个价格是可以跑通的。

从商业角度看,把价格压低,把调用量做大,DeepSeek可以把国产模型和国产算力的组合跑出来。

对政企市场来说,模型能力足够强、成本足够低可国产化部署,比单纯榜单*更有吸引力。

低价在这里不仅是商业策略,更是国产AI基础设施的底层叙事。

MiMo的逻辑则更为直接。

小米集团的背书,意味着大模型API业务可以在不盈利的阶段持续运转,亏损可以被视为战略投入而非经营失败。

其商业目的也很明确,开发者一旦把工作流、代码、数据都跑在MiMo上,迁移成本极高。今天的低价,锁定的是明天的企业客户。

更深层的意义,是小米要在模型生态里提前占位。

手机、汽车、IoT、机器人,这些终端最终都需要低成本、可高频调用的模型能力。

如果今天开发者先围绕MiMo建工具、做插件、跑Agent,小米未来就不只是卖硬件,而是在争取一个AI时代的开发者入口。

04

新一轮的价格战

尽管两家降价的逻辑并不相同,但结果指向同一个价格。

从竞争策略上看,小米MiMo此次是典型的价格跟随:DeepSeek先动,MiMo贴身跟上。

对于开发者来说,两家价格相同,意味着选择回归到了性能、稳定性、生态工具链等维度的对比。

而小米显然认为,在这些维度上MiMo已经有了足够的竞争资本,否则对齐价格只是在给对手做嫁衣。

问题在于,这个价格一旦被两家同时锚定,就很难再往上走了。

用户的心理预期已经形成,大模型调用就应该这么便宜。后来者要么跟进,要么解释清楚自己凭什么更贵。

那些能力不如OpenAI、Anthropic,价格又打不过DeepSeek、MiMo的中间厂商,会*被挤压。

国内自研大模型的大厂们,以及模型创业公司,迟早都要被拉进来表态。

但它们也面临两难抉择:跟进降价意味着加大烧钱,不跟进意味着失去开发者和企业客户。

值得注意的是,这场价格战,目前还没有波及到市场的另一端。

OpenAI的GPT和Anthropic的Claude Opus系列,定价仍然比国产头部高出一个数量级,但企业客户该续约的依然在续约。

这说明市场已经在分层。

对价格敏感的开发者和中小企业,正在被DeepSeek和MiMo的低价快速吸走。

对合规性、多模态能力有特定需求的大客户,暂时还留在高价区间。

接下来,大模型市场可能会分成两个阵营:

一端是极低价基础设施层,负责提供便宜、稳定、可规模化的token;

另一端是高溢价前沿能力层,继续卖最强推理、最强Agent、最强多模态和企业级安全能力。

而那些两端都够不着的厂商,既没有成本优势,又没有能力壁垒,大概率只能出局了。

【本文由投资界合作伙伴微信公众号:世界模型工场授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。