平民玩家，开始玩儿不起AI了

2026年4月12日，智谱Coding Plan（海外版）月付价格几乎翻倍。

第二天，阿里云宣布取消百炼平台基础套餐的续费入口。

其他厂商并没有在涨价上落后，4月9日，腾讯云AI算力全线上调5%。

这场涨价潮，代表着AI产业正从"流量获客"的互联网时代，迅速滑向"算力通货紧缩"的重工业时代。

之前为了吸引用户，大模型大打价格战。现在token使用量猛增，从大模型到云厂商，都看到了卖token能够跑通的盈利模式，也该提价收回此前的成本了。

在汹涌增长的token需求面前，算力供应极度吃紧，涨价就顺着产业链不断向下游传导，承受成本的终端就是中小型开发者和普通用户。

智能体撞开了算力闸门

我国日均token调用量，今年三月已经超过了140万亿，相比2024年初的1000亿增长了1000多倍，比起2025年底的100万亿，三个月内也增长了40%。

最近三个月的猛涨，主要得益于以OpenClaw为代表的智能体，让它们自动工作要消耗大量token，以至于有相当一批人体验了OpenClaw后，大呼token消耗太厉害，快没钱烧了，只好卸载了事。

token消耗量猛增，意味着算力大幅消耗，传导到上游就是AI芯片遭到哄抢。

根据SemiAnalysis，英伟达H100的一年期租赁合同价格从2025年10月的1.70美元/小时/GPU飙升至2026年3月的2.35美元，涨幅近40%。

上涨的可不只有GPU价格，就连AI服务器调度与推理核心的CPU也在被抢购，2026年3月下旬，英特尔与AMD相继通知客户上调处理器价格，这两家今年服务器CPU产能已基本售罄。

成本压力沿着"芯片-云厂商-模型厂商-应用厂商-企业客户"的链条层层下传。

Cursor是全球*的独立AI代码生成平台，2026年2月年化收入突破20亿美元，看似风光，实则2025年亏损至少1.5亿美元。

其几乎所有收入都被用于调用Anthropic和OpenAI的模型，毛利率被压缩至令人窒息的水平。

传统SaaS软件公司毛利率中位数高达77%，现在AI大模型和应用卷死了传统软件公司，可AI应用的平均毛利率仅为25%至60%。

所以大模型只能涨价，把成本继续往下游传导，此前价格战给的福利要收回，这一风气也不是国内先开始的。

2026年4月初，全球领先的大模型厂商，已经估值数百亿美元的AI巨头Anthropic，突然切断订阅用户通过OpenClaw等第三方工具接入Claude API的许可。

官方解释直白赤裸，部分重度用户每月仅支付200美元订阅费，却消耗了价值5000美元的算力资源。

一个OpenClaw代理运行一天，背后的算力成本在1000至5000美元之间，用户还是趁早别白嫖自家服务，该去切换至按用量付费的API模式，不然连Anthropic都顶不住。

token浪费触目惊心

大模型涨价，用户肉疼之余也在疑惑，这token就非得烧这么多吗？

今年3月，就有一位名为shelvenzhou的开发者在GitHub上进行了一项基准测试，记录自己使用OpenClaw处理日常工作的Token消耗轨迹。

第一轮对话成本0.0050美元，很是省钱。

第五轮飙升至0.0665美元，不大对劲。

第十轮达到0.13美元，是个人意识到了，烧的钱根本不是一点点增长，而是指数级爆炸。

像癌细胞一样，每一轮分裂都在加速吞噬算力资源。

为什么token消耗会随着对话次数增多而指数爆炸呢？

了解OpenClaw等智能体的工作原理，就能理解token消耗量指数增长，是因为“上下文的无序膨胀”。

随着对话轮次增长，历史文件、对话记录不断累积，智能体为了寻找相关信息，往往只能采取"宁可错杀一千"的策略，把所有文件都读一遍。

用户每次输入后，Agent甚至可能需要重新计算完整的对话记录和文件数据。这导致智能体成本指数级增长，正如shelvenzhou测试的那样，第10轮对话的成本已是第1轮的26倍。

聪明的你自然会想到，这么多消耗的token里有相当一部分是浪费掉了。

《财经》统计，今年一季度，GitHub上有关“Token Waste”（token浪费）的问题，数量冲到了超过4000多个，比起上个季度增长了快五倍。

天下苦token浪费久矣。

让人人都能用得起智能体

想要用token少花钱，一个办法是多提供芯片，把芯片成本降下来。

然而国产AI芯片产能仍然被卡脖子，3月底华为昇腾服务器系列也涨价了，910C（A3）1TB内存版本单台大概上涨16万至32万元，2TB版本涨幅在32万至48万元之间。

还有一个办法，就是优化智能体，让它不要再浪费那么多token了。

目前有个成熟做法是“KV Cache”（键值缓存）技术。

这项技术原理也简单，模型对已计算上下文的结果进行缓存，以免下次调用重复计算消耗token。

还有一个办法，就是做好模型分工，token用在刀刃上。

复杂规划用旗舰模型保证准确，简单的高频执行交给轻量模型即可。

OpenAI的Codex升级已经体现了这种分层逻辑：GPT-5.4负责规划、协调与最终判断，而GPT-5.4 Mini子智能体则并行处理代码库检索、大文件审阅等细粒度任务。

不管哪种方法，都说明目前的智能体仍然处于起步阶段，还很不成熟，就像一批天不怕地不怕的小马驹，虽然最终能跑到终点，但过程中会到处乱跑消耗体力。

所以最近harness在AI圈子里火了。

Harness原意是马具，放在这里就是指约束智能体，让它更省力地跑到终点，这涉及到给模型调用什么工具、如何做分层的上下文工程、如何管理长记忆、如何设计工作流。

从这个意义上说，在智能体从"能跑"进化到"越跑越稳"的harness时代，能做的工作还有很多。谁能用更少的token完成同样的任务，谁就能在AI产业的残酷洗牌中存活。

token经济的正向循环不会自动形成，想要用户用得起，还是得减少浪费，让大家都玩起来。

否则，2026年智能体普及年的狂欢，将在算力不足，挤出普通用户的过程中落幕。

参考资料：

AI涨价潮：智谱海外版“直逼”Claude，阿里云取消基础套餐，四年前的H100也卖光了 https://mp.weixin.qq.com/s/VJzaTh9rHAawssltU3FaFQ

阿里、腾讯、百度集体调价，Token第一股年内狂飙547%，算力涨价潮来了 https://mp.weixin.qq.com/s/s6LoLAD3WvhN1-QdNi_hDg

从“龙虾”到“爱马仕”，Agent越能干Token越费钱 https://mp.weixin.qq.com/s/40lUY9JWuxq6EryEkImK-Q

Elephant走红：AI开始为“Token浪费”算细账 https://mp.weixin.qq.com/s/7e0WXmZl2Ar25vd-RiNHbg

今天，50%的Token正在被浪费 https://mp.weixin.qq.com/s/r7LMwCArMtDfejJbrPJC5w

我国日均Token的调用量三个月增长超40% 目前已超140万亿_媒体聚焦_数字中国建设峰会 https://www.digitalchina.gov.cn/2026/xwzx/mtjj/202603/t20260325_5300141.htm

【本文由投资界合作伙伴微信公众号：非凡油条授权发布，本平台仅提供信息存储服务。】如有任何疑问，请联系（editor@zero2ipo.com.cn）投资界处理。

平民玩家，开始玩儿不起AI了

AI投资人解读

相关资讯

铭剑电子完成A轮融资，加速AI算力、航天航空与6G通信领域布局

布局AI产业链，艾利特机器人完成6亿元D+轮融资

一周年新启程｜“X‑Day”西丽湖路演社AI for X 专场圆满举办，擘画AI产业科创生态新蓝图

AI算力的下一个战场，已经延伸到了太空

小马智行与摩尔线程达成战略合作，以国产AI算力加速中国自动驾驶规模化落地

2026，AI算力新江湖

关于我们

对外合作

投稿邮箱

联系我们

投资界微信

投资界APP