2026年4月12日,智谱Coding Plan(海外版)月付价格几乎翻倍。
第二天,阿里云宣布取消百炼平台基础套餐的续费入口。
其他厂商并没有在涨价上落后,4月9日,腾讯云AI算力全线上调5%。
这场涨价潮,代表着AI产业正从"流量获客"的互联网时代,迅速滑向"算力通货紧缩"的重工业时代。
之前为了吸引用户,大模型大打价格战。现在token使用量猛增,从大模型到云厂商,都看到了卖token能够跑通的盈利模式,也该提价收回此前的成本了。
在汹涌增长的token需求面前,算力供应极度吃紧,涨价就顺着产业链不断向下游传导,承受成本的终端就是中小型开发者和普通用户。
智能体撞开了算力闸门
我国日均token调用量,今年三月已经超过了140万亿,相比2024年初的1000亿增长了1000多倍,比起2025年底的100万亿,三个月内也增长了40%。
最近三个月的猛涨,主要得益于以OpenClaw为代表的智能体,让它们自动工作要消耗大量token,以至于有相当一批人体验了OpenClaw后,大呼token消耗太厉害,快没钱烧了,只好卸载了事。
token消耗量猛增,意味着算力大幅消耗,传导到上游就是AI芯片遭到哄抢。
根据SemiAnalysis,英伟达H100的一年期租赁合同价格从2025年10月的1.70美元/小时/GPU飙升至2026年3月的2.35美元,涨幅近40%。
上涨的可不只有GPU价格,就连AI服务器调度与推理核心的CPU也在被抢购,2026年3月下旬,英特尔与AMD相继通知客户上调处理器价格,这两家今年服务器CPU产能已基本售罄。
成本压力沿着"芯片-云厂商-模型厂商-应用厂商-企业客户"的链条层层下传。
Cursor是全球*的独立AI代码生成平台,2026年2月年化收入突破20亿美元,看似风光,实则2025年亏损至少1.5亿美元。
其几乎所有收入都被用于调用Anthropic和OpenAI的模型,毛利率被压缩至令人窒息的水平。
传统SaaS软件公司毛利率中位数高达77%,现在AI大模型和应用卷死了传统软件公司,可AI应用的平均毛利率仅为25%至60%。
所以大模型只能涨价,把成本继续往下游传导,此前价格战给的福利要收回,这一风气也不是国内先开始的。
2026年4月初,全球领 先的大模型厂商,已经估值数百亿美元的AI巨头Anthropic,突然切断订阅用户通过OpenClaw等第三方工具接入Claude API的许可。
官方解释直白赤裸,部分重度用户每月仅支付200美元订阅费,却消耗了价值5000美元的算力资源。
一个OpenClaw代理运行一天,背后的算力成本在1000至5000美元之间,用户还是趁早别白嫖自家服务,该去切换至按用量付费的API模式,不然连Anthropic都顶不住。
token浪费触目惊心
大模型涨价,用户肉疼之余也在疑惑,这token就非得烧这么多吗?
今年3月,就有一位名为shelvenzhou的开发者在GitHub上进行了一项基准测试,记录自己使用OpenClaw处理日常工作的Token消耗轨迹。
第 一轮对话成本0.0050美元,很是省钱。
第五轮飙升至0.0665美元,不大对劲。
第十轮达到0.13美元,是个人意识到了,烧的钱根本不是一点点增长,而是指数级爆炸。
像癌细胞一样,每一轮分裂都在加速吞噬算力资源。
为什么token消耗会随着对话次数增多而指数爆炸呢?
了解OpenClaw等智能体的工作原理,就能理解token消耗量指数增长,是因为“上下文的无序膨胀”。
随着对话轮次增长,历史文件、对话记录不断累积,智能体为了寻找相关信息,往往只能采取"宁可错杀一千"的策略,把所有文件都读一遍。
用户每次输入后,Agent甚至可能需要重新计算完整的对话记录和文件数据。这导致智能体成本指数级增长,正如shelvenzhou测试的那样,第10轮对话的成本已是第1轮的26倍。
聪明的你自然会想到,这么多消耗的token里有相当一部分是浪费掉了。
《财经》统计,今年一季度,GitHub上有关“Token Waste”(token浪费)的问题,数量冲到了超过4000多个,比起上个季度增长了快五倍。
天下苦token浪费久矣。
让人人都能用得起智能体
想要用token少花钱,一个办法是多提供芯片,把芯片成本降下来。
然而国产AI芯片产能仍然被卡脖子,3月底华为昇腾服务器系列也涨价了,910C(A3)1TB内存版本单台大概上涨16万至32万元,2TB版本涨幅在32万至48万元之间。
还有一个办法,就是优化智能体,让它不要再浪费那么多token了。
目前有个成熟做法是“KV Cache”(键值缓存)技术。
这项技术原理也简单,模型对已计算上下文的结果进行缓存,以免下次调用重复计算消耗token。
还有一个办法,就是做好模型分工,token用在刀刃上。
复杂规划用旗舰模型保证准确,简单的高频执行交给轻量模型即可。
OpenAI的Codex升级已经体现了这种分层逻辑:GPT-5.4负责规划、协调与最终判断,而GPT-5.4 Mini子智能体则并行处理代码库检索、大文件审阅等细粒度任务。
不管哪种方法,都说明目前的智能体仍然处于起步阶段,还很不成熟,就像一批天不怕地不怕的小马驹,虽然最终能跑到终点,但过程中会到处乱跑消耗体力。
所以最近harness在AI圈子里火了。
Harness原意是马具,放在这里就是指约束智能体,让它更省力地跑到终点,这涉及到给模型调用什么工具、如何做分层的上下文工程、如何管理长记忆、如何设计工作流。
从这个意义上说,在智能体从"能跑"进化到"越跑越稳"的harness时代,能做的工作还有很多。谁能用更少的token完成同样的任务,谁就能在AI产业的残酷洗牌中存活。
token经济的正向循环不会自动形成,想要用户用得起,还是得减少浪费,让大家都玩起来。
否则,2026年智能体普及年的狂欢,将在算力不足,挤出普通用户的过程中落幕。
参考资料:
AI涨价潮:智谱海外版“直逼”Claude,阿里云取消基础套餐,四年前的H100也卖光了 https://mp.weixin.qq.com/s/VJzaTh9rHAawssltU3FaFQ
阿里、腾讯、百度集体调价,Token第 一股年内狂飙547%,算力涨价潮来了 https://mp.weixin.qq.com/s/s6LoLAD3WvhN1-QdNi_hDg
从“龙虾”到“爱马仕”,Agent越能干Token越费钱 https://mp.weixin.qq.com/s/40lUY9JWuxq6EryEkImK-Q
Elephant走红:AI开始为“Token浪费”算细账 https://mp.weixin.qq.com/s/7e0WXmZl2Ar25vd-RiNHbg
今天,50%的Token正在被浪费 https://mp.weixin.qq.com/s/r7LMwCArMtDfejJbrPJC5w
我国日均Token的调用量三个月增长超40% 目前已超140万亿_媒体聚焦_数字中国建设峰会 https://www.digitalchina.gov.cn/2026/xwzx/mtjj/202603/t20260325_5300141.htm
【本文由投资界合作伙伴微信公众号:非凡油条授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。





