今天凌晨,小米旗下大模型MiMo-V2.5-Pro宣布降价。
最高降幅99%,与DeepSeek V4-Pro的价格几乎完全相同。

就在几天前,DeepSeek宣布将旗舰模型V4-Pro原本限时的2.5折优惠*化。
两家国产大模型,在几乎同一时间,把价格打到同一条线上。
大模型明明仍是最烧钱的生意,为什么国产模型的价格已经降到地板,还能一降再降?
当旗舰模型都开始以白菜价出售,新一轮价格战是不是已经来了?

01
降价99%,实际降了多少?
这次小米模型降价,*点燃的是开发者社区。
很多人的*反应除了便宜,还有离谱。
Hacker News上,有开发者晒出自己的账户额度:Pro计划从原先约7亿token,变成了380亿Credits,额度暴增。
评论区里很多用户写道:"强的可怕"、"赶紧迁移"。
中国开发者社区的讨论更实用,比如能不能替代DeepSeek?迁移成本高不高?Agent、代码、长上下文场景到底稳不稳?
但质疑也很快出现,小米凭什么把推理价格打到这么低?
其实这里有一个容易误导的数字。
降价99%是真的,但不是所有token都降了99%。
MiMo-V2.5-Pro的新定价是:缓存命中输入0.025元/百万tokens,缓存未命中输入3元/百万tokens,输出6元/百万tokens。
99%的降幅,针对的是"缓存命中"这一项。
缓存命中,意味着你发给模型的内容,大部分是它之前已经处理过、存在显存或内存里的,比如一段固定不变的系统提示词。
据小米官方估算,在95%缓存命中率的前提下,Token Plan的可用量可以提升至原来的5至8倍。
DeepSeek V4-Pro的降价逻辑也是如此。缓存命中价极低,未命中和输出价格则维持在相对正常的水平。
问题在于,并非所有场景都能享受这个前提。
对于一个部署了固定system prompt的客服机器人,每次对话的开头都是同一段指令,缓存命中率可以很高,实际费用确实能大幅下降。
但对于每次发送全新内容的用户,写作助手、逐篇分析文件等任务,几乎每个token都要重新计算。
以输入1000 token、输出500 token的请求为例:
如果按旧256K内价格计算,成本从约0.0175 元降至0.006元,降幅约66%;
如果按旧1M长上下文价格计算,降幅接近83%。
也就是说,99%是真实存在的最高降幅,但它主要发生在缓存命中场景。
对不依赖缓存的普通任务来说,实打实的降幅通常没有99%那么夸张,但仍然相当可观。
02
为什么价格能压这么低?
之前DeepSeek-V4的调用价格,已经低到离谱,这次V4-Pro和MiMo-V2.5-Pro还能在此基础上再次大幅降价。
这就不禁让人好奇,大模型一直都是烧钱的代名词,怎么这两家国产模型还能把价格打到这么低?
答案不是一个单点的突破,而是技术和商业同时发力的结果。
国产模型低价的技术底座,是一整套推理工程的集体优化:
MoE降低激活计算,MLA/SWA降低长上下文成本,MTP和投机解码提高吞吐,缓存复用摊薄重复输入,量化降低显存和算力压力,工程调度提升集群利用率。
*层,MoE架构。
所谓旗舰模型白菜价,*步就是靠MoE(混合专家)架构把价格打下来。
传统密集模型每生成一个token,都要调动几乎全部参数。
而MoE可以把模型做得很大,但每次只激活其中一部分专家。
比如,DeepSeek-V3是671B总参数、每个token只激活约37B,计算量被显著降低,整体性能几乎不打折。
第二层,KV Cache的压缩与搬运优化。
长上下文贵,不只贵在计算,更贵在存储和搬运。
DeepSeek的MLA、MiMo的Hybrid Attention + SWA,都是在解决这个问题。
不让模型每次完整重读全部上下文,而是把注意力里的关键表示压缩、复用、分层处理。
第三层,投机解码和多token预测。
大模型推理慢,核心原因之一是自回归生成,即一个token、一个token的往外吐。
多token预测、投机解码这类方法,本质是让模型提前猜未来几个token,再由主模型验证。
它不改变模型能力的天花板,但能提升吞吐。对API生意来说,吞吐就是成本。
第四层,缓存复用。
缓存命中token和缓存未命中token之间,价格可以差出上百倍。
因为缓存命中不是重新计算,而是在复用已经处理过的上下文。
只要缓存命中率足够高,长上下文的平均成本就会被大幅摊薄。
第五层,量化和低精度部署。
FP8、INT8、甚至更激进的量化,已经成为头部推理部署的标配方向。
它在尽量不明显牺牲效果的前提下,用更低精度减少显存占用、提升计算吞吐。
谁能在低精度下保持稳定,谁就能把价格继续往下压。
第六层,知识蒸馏和工程调度。
真实的模型服务体系是一整套模型路由:
简单任务交给小模型,复杂任务交给大模型;短上下文走轻量路径,长上下文走专门优化路径;高并发时通过批处理、连续批处理、动态调度提升卡的利用率。
所以,由*模型路径跑出来的API价格可以持续优化。
03
技术降本之外,谁在支撑低价?
技术层面可以解释为什么推理变便宜,但不能完全说通为什么价格能降到这么低。
毕竟,目前模型厂商都还处在烧钱阶段,没有谁能轻易发起价格战。
先看DeepSeek,它的底气来自两个相互叠加的优势。
首先,美国的芯片出口管制,逼着中国工程师们在H800乃至国产芯片上,把软件效率榨到*。
据媒体近期披露,DeepSeek推理集群已开始接入华为昇腾950PR芯片,而昇腾系列的单卡采购价约为英伟达同代产品的三分之一。
如果推理侧能够大比例替换为国产芯片,硬件成本将出现另一个量级的压缩,这或许才是这轮*降价的底牌。
其次,DeepSeek母公司幻方科技提供了硬件自主权。
这家量化私募基金早年便自建了大规模算力集群,DeepSeek的推理成本,从一开始就不是按云厂商市价在计算的。
梁文锋本人的表态是"不补贴,也不暴利,略高于成本的小幅利润"。
这句话描述的是推理侧,不含研发和训练的持续投入,但至少说明,在他们的成本结构里,现在这个价格是可以跑通的。
从商业角度看,把价格压低,把调用量做大,DeepSeek可以把国产模型和国产算力的组合跑出来。
对政企市场来说,模型能力足够强、成本足够低可国产化部署,比单纯榜单*更有吸引力。
低价在这里不仅是商业策略,更是国产AI基础设施的底层叙事。
MiMo的逻辑则更为直接。
小米集团的背书,意味着大模型API业务可以在不盈利的阶段持续运转,亏损可以被视为战略投入而非经营失败。
其商业目的也很明确,开发者一旦把工作流、代码、数据都跑在MiMo上,迁移成本极高。今天的低价,锁定的是明天的企业客户。
更深层的意义,是小米要在模型生态里提前占位。
手机、汽车、IoT、机器人,这些终端最终都需要低成本、可高频调用的模型能力。
如果今天开发者先围绕MiMo建工具、做插件、跑Agent,小米未来就不只是卖硬件,而是在争取一个AI时代的开发者入口。
04
新一轮的价格战
尽管两家降价的逻辑并不相同,但结果指向同一个价格。
从竞争策略上看,小米MiMo此次是典型的价格跟随:DeepSeek先动,MiMo贴身跟上。
对于开发者来说,两家价格相同,意味着选择回归到了性能、稳定性、生态工具链等维度的对比。
而小米显然认为,在这些维度上MiMo已经有了足够的竞争资本,否则对齐价格只是在给对手做嫁衣。
问题在于,这个价格一旦被两家同时锚定,就很难再往上走了。
用户的心理预期已经形成,大模型调用就应该这么便宜。后来者要么跟进,要么解释清楚自己凭什么更贵。
那些能力不如OpenAI、Anthropic,价格又打不过DeepSeek、MiMo的中间厂商,会*被挤压。
国内自研大模型的大厂们,以及模型创业公司,迟早都要被拉进来表态。
但它们也面临两难抉择:跟进降价意味着加大烧钱,不跟进意味着失去开发者和企业客户。
值得注意的是,这场价格战,目前还没有波及到市场的另一端。
OpenAI的GPT和Anthropic的Claude Opus系列,定价仍然比国产头部高出一个数量级,但企业客户该续约的依然在续约。
这说明市场已经在分层。
对价格敏感的开发者和中小企业,正在被DeepSeek和MiMo的低价快速吸走。
对合规性、多模态能力有特定需求的大客户,暂时还留在高价区间。
接下来,大模型市场可能会分成两个阵营:
一端是极低价基础设施层,负责提供便宜、稳定、可规模化的token;
另一端是高溢价前沿能力层,继续卖最强推理、最强Agent、最强多模态和企业级安全能力。
而那些两端都够不着的厂商,既没有成本优势,又没有能力壁垒,大概率只能出局了。
【本文由投资界合作伙伴微信公众号:世界模型工场授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。

