DeepSeek永久降价，小米跟了，价格战又打起来了？

今天凌晨，小米旗下大模型MiMo-V2.5-Pro宣布降价。

最高降幅99%，与DeepSeek V4-Pro的价格几乎完全相同。

就在几天前，DeepSeek宣布将旗舰模型V4-Pro原本限时的2.5折优惠*化。

两家国产大模型，在几乎同一时间，把价格打到同一条线上。

大模型明明仍是最烧钱的生意，为什么国产模型的价格已经降到地板，还能一降再降？

当旗舰模型都开始以白菜价出售，新一轮价格战是不是已经来了？

降价99%，实际降了多少？

这次小米模型降价，*点燃的是开发者社区。

很多人的*反应除了便宜，还有离谱。

Hacker News上，有开发者晒出自己的账户额度：Pro计划从原先约7亿token，变成了380亿Credits，额度暴增。

评论区里很多用户写道："强的可怕"、"赶紧迁移"。

中国开发者社区的讨论更实用，比如能不能替代DeepSeek？迁移成本高不高？Agent、代码、长上下文场景到底稳不稳？

但质疑也很快出现，小米凭什么把推理价格打到这么低？

其实这里有一个容易误导的数字。

降价99%是真的，但不是所有token都降了99%。

MiMo-V2.5-Pro的新定价是：缓存命中输入0.025元/百万tokens，缓存未命中输入3元/百万tokens，输出6元/百万tokens。

99%的降幅，针对的是"缓存命中"这一项。

缓存命中，意味着你发给模型的内容，大部分是它之前已经处理过、存在显存或内存里的，比如一段固定不变的系统提示词。

据小米官方估算，在95%缓存命中率的前提下，Token Plan的可用量可以提升至原来的5至8倍。

DeepSeek V4-Pro的降价逻辑也是如此。缓存命中价极低，未命中和输出价格则维持在相对正常的水平。

问题在于，并非所有场景都能享受这个前提。

对于一个部署了固定system prompt的客服机器人，每次对话的开头都是同一段指令，缓存命中率可以很高，实际费用确实能大幅下降。

但对于每次发送全新内容的用户，写作助手、逐篇分析文件等任务，几乎每个token都要重新计算。

以输入1000 token、输出500 token的请求为例：

如果按旧256K内价格计算，成本从约0.0175 元降至0.006元，降幅约66%；

如果按旧1M长上下文价格计算，降幅接近83%。

也就是说，99%是真实存在的最高降幅，但它主要发生在缓存命中场景。

对不依赖缓存的普通任务来说，实打实的降幅通常没有99%那么夸张，但仍然相当可观。

为什么价格能压这么低？

之前DeepSeek-V4的调用价格，已经低到离谱，这次V4-Pro和MiMo-V2.5-Pro还能在此基础上再次大幅降价。

这就不禁让人好奇，大模型一直都是烧钱的代名词，怎么这两家国产模型还能把价格打到这么低？

答案不是一个单点的突破，而是技术和商业同时发力的结果。

国产模型低价的技术底座，是一整套推理工程的集体优化：

MoE降低激活计算，MLA/SWA降低长上下文成本，MTP和投机解码提高吞吐，缓存复用摊薄重复输入，量化降低显存和算力压力，工程调度提升集群利用率。

*层，MoE架构。

所谓旗舰模型白菜价，*步就是靠MoE（混合专家）架构把价格打下来。

传统密集模型每生成一个token，都要调动几乎全部参数。

而MoE可以把模型做得很大，但每次只激活其中一部分专家。

比如，DeepSeek-V3是671B总参数、每个token只激活约37B，计算量被显著降低，整体性能几乎不打折。

第二层，KV Cache的压缩与搬运优化。

长上下文贵，不只贵在计算，更贵在存储和搬运。

DeepSeek的MLA、MiMo的Hybrid Attention + SWA，都是在解决这个问题。

不让模型每次完整重读全部上下文，而是把注意力里的关键表示压缩、复用、分层处理。

第三层，投机解码和多token预测。

大模型推理慢，核心原因之一是自回归生成，即一个token、一个token的往外吐。

多token预测、投机解码这类方法，本质是让模型提前猜未来几个token，再由主模型验证。

它不改变模型能力的天花板，但能提升吞吐。对API生意来说，吞吐就是成本。

第四层，缓存复用。

缓存命中token和缓存未命中token之间，价格可以差出上百倍。

因为缓存命中不是重新计算，而是在复用已经处理过的上下文。

只要缓存命中率足够高，长上下文的平均成本就会被大幅摊薄。

第五层，量化和低精度部署。

FP8、INT8、甚至更激进的量化，已经成为头部推理部署的标配方向。

它在尽量不明显牺牲效果的前提下，用更低精度减少显存占用、提升计算吞吐。

谁能在低精度下保持稳定，谁就能把价格继续往下压。

第六层，知识蒸馏和工程调度。

真实的模型服务体系是一整套模型路由：

简单任务交给小模型，复杂任务交给大模型；短上下文走轻量路径，长上下文走专门优化路径；高并发时通过批处理、连续批处理、动态调度提升卡的利用率。

所以，由*模型路径跑出来的API价格可以持续优化。

技术降本之外，谁在支撑低价？

技术层面可以解释为什么推理变便宜，但不能完全说通为什么价格能降到这么低。

毕竟，目前模型厂商都还处在烧钱阶段，没有谁能轻易发起价格战。

先看DeepSeek，它的底气来自两个相互叠加的优势。

首先，美国的芯片出口管制，逼着中国工程师们在H800乃至国产芯片上，把软件效率榨到*。

据媒体近期披露，DeepSeek推理集群已开始接入华为昇腾950PR芯片，而昇腾系列的单卡采购价约为英伟达同代产品的三分之一。

如果推理侧能够大比例替换为国产芯片，硬件成本将出现另一个量级的压缩，这或许才是这轮*降价的底牌。

其次，DeepSeek母公司幻方科技提供了硬件自主权。

这家量化私募基金早年便自建了大规模算力集群，DeepSeek的推理成本，从一开始就不是按云厂商市价在计算的。

梁文锋本人的表态是"不补贴，也不暴利，略高于成本的小幅利润"。

这句话描述的是推理侧，不含研发和训练的持续投入，但至少说明，在他们的成本结构里，现在这个价格是可以跑通的。

从商业角度看，把价格压低，把调用量做大，DeepSeek可以把国产模型和国产算力的组合跑出来。

对政企市场来说，模型能力足够强、成本足够低可国产化部署，比单纯榜单*更有吸引力。

低价在这里不仅是商业策略，更是国产AI基础设施的底层叙事。

MiMo的逻辑则更为直接。

小米集团的背书，意味着大模型API业务可以在不盈利的阶段持续运转，亏损可以被视为战略投入而非经营失败。

其商业目的也很明确，开发者一旦把工作流、代码、数据都跑在MiMo上，迁移成本极高。今天的低价，锁定的是明天的企业客户。

更深层的意义，是小米要在模型生态里提前占位。

手机、汽车、IoT、机器人，这些终端最终都需要低成本、可高频调用的模型能力。

如果今天开发者先围绕MiMo建工具、做插件、跑Agent，小米未来就不只是卖硬件，而是在争取一个AI时代的开发者入口。

新一轮的价格战

尽管两家降价的逻辑并不相同，但结果指向同一个价格。

从竞争策略上看，小米MiMo此次是典型的价格跟随：DeepSeek先动，MiMo贴身跟上。

对于开发者来说，两家价格相同，意味着选择回归到了性能、稳定性、生态工具链等维度的对比。

而小米显然认为，在这些维度上MiMo已经有了足够的竞争资本，否则对齐价格只是在给对手做嫁衣。

问题在于，这个价格一旦被两家同时锚定，就很难再往上走了。

用户的心理预期已经形成，大模型调用就应该这么便宜。后来者要么跟进，要么解释清楚自己凭什么更贵。

那些能力不如OpenAI、Anthropic，价格又打不过DeepSeek、MiMo的中间厂商，会*被挤压。

国内自研大模型的大厂们，以及模型创业公司，迟早都要被拉进来表态。

但它们也面临两难抉择：跟进降价意味着加大烧钱，不跟进意味着失去开发者和企业客户。

值得注意的是，这场价格战，目前还没有波及到市场的另一端。

OpenAI的GPT和Anthropic的Claude Opus系列，定价仍然比国产头部高出一个数量级，但企业客户该续约的依然在续约。

这说明市场已经在分层。

对价格敏感的开发者和中小企业，正在被DeepSeek和MiMo的低价快速吸走。

对合规性、多模态能力有特定需求的大客户，暂时还留在高价区间。

接下来，大模型市场可能会分成两个阵营：

一端是极低价基础设施层，负责提供便宜、稳定、可规模化的token；

另一端是高溢价前沿能力层，继续卖最强推理、最强Agent、最强多模态和企业级安全能力。

而那些两端都够不着的厂商，既没有成本优势，又没有能力壁垒，大概率只能出局了。

【本文由投资界合作伙伴微信公众号：世界模型工场授权发布，本平台仅提供信息存储服务。】如有任何疑问，请联系（editor@zero2ipo.com.cn）投资界处理。

DeepSeek永久降价，小米跟了，价格战又打起来了？

AI投资人解读

本文涉及

相关资讯

AI产业的新胜负手：词元的生产与编排

飞书终于支持Markdown了，这个最弱的格式却赢下了整个AI时代

Speech LLM 的下一个突破口：你的语音大模型可以是个「带韵律的文本模型」

大模型也需要睡觉！让AI打个盹，醒来更聪明

一年暴涨10倍，存储芯片成AI时代「印钞机」

创新药再遇AI投资热，春秋以后是战国？

关于我们

对外合作

投稿邮箱

联系我们

投资界微信

投资界APP