今年以来,AI使用体验的差异日益显著。
都用最新的DeepSeek V4大模型辅助工作,为什么网上的大神像是请了个专家顾问,我却像是找了个不那么“灵光”、事事都需要反复交代的小白实习生?
同样是部署Agent,为什么有的人分分钟搞定,我却“卡”在bug里,不是模型参数不适配,就是协议与格式不兼容?
狠狠心“剁手”买上服务商的套餐,图个方便、稳定,但为啥人家说99.9%可用,到我这问个问题要等好几分钟才回复?
出于“韭菜”的“自我修养”,不少人开始从自身找问题:是不是提示词不够好?是不是功能开发不到位?是不是该苦学上下文管理?……
虽然上述问题都很重要,但在这背后,更多的可能是一些行业“潜规则”在作祟。
1、“笨”模型背后的“猫腻”
“之前一个新模型发布时,我们给几十家进行部署的服务商做了评测,发现一些服务商的模型明显就很笨。调查之后才明白,有厂家为了节省成本,将原来FP8精度的模型,降级用INT4精度进行部署,效果自然打了折扣。而且,在这些服务商的报价单中,此类减配模型的关键指标往往都跟原厂模型长得一样,而至关重要的精度信息则不写入其中,缺少评测能力的购买者根本不知道自己买的不是原版。”
近日,清程极智联合创始人师天麾博士在中科创星硬科技媒体行清程极智专场活动中,介绍了他所了解到的一些行业“乱象”。
上述现象也一定程度上解释了为何同款大模型出现悬殊的使用体验,以及在某些渠道、场景中明显“降智”的情况。
问题指向的是随着“Token经济”爆发而愈发壮大的Token服务商。通常来讲,其运营模式是在采购算力并部署好大模型后,将模型能力以按Token计费的形式对外售卖。
目前,国内Token服务商林立,除了自研模型的原厂外,转售三方模型的云厂商、通过API代理赚取差价的代理商,都从事着相关业务。传统电信运营商和专注模型部署调优的创业公司也都在积极入局。
但随着行业规模不断扩大,竞争愈发激烈,“坑”也越来越多,其中严重者无异于对购买者的“诈骗”。
师天麾称,在Token还不像如今这么紧缺的时候,Token服务商会在价格上展开竞争。同样的模型,报价有高有低,有的企业为节约成本,选了单价更低的服务商。但不少低价服务商在KV Cache命中率等方面存在明显短板,耗费大量Token却根本拿不到理想的结果,最终其总成本甚至比高单价版还高出好几倍。
除了模型质量和价格,响应速度上也有“猫腻”。
在一些Token服务商提供的服务中,高达20%的请求会出现延迟异常,原本三五秒该返回的内容,硬是拖到几十甚至几百秒。师天麾以“慢响应”总结相关现象,而原本承诺“99.9%可用”的厂商,依然会将明显异常的延迟界定为“可用”,影响用户体验。
在清华大学计算机系教授翟季冬给出的一组数据中,部分服务商的慢响应比例接近20%,这意味着其提供的1/5的服务都有问题。大多数服务商的慢响应问题比例也都高于1%,对于很多需要快速、稳定响应的场景而言,仍难令人满意。

图片来自翟季冬《Token服务评测与自动路由》
更为严峻的是,据师天麾的观察,慢响应的问题并没有随着行业发展而得到解决,当前的情况反而比去年末今年初还严重。
而这,也成了当前Token产业迅猛发展,但供给侧却鱼龙混杂、指标混乱、服务质量参差不齐的一个缩影。
2、Token大时代的隐忧
Token迎来了属于自己的大时代,也带来远胜以往的冲击。
师天麾对作者分析称,包括慢响应等问题之所以愈发严重,本质上还是供需不平衡。
其中很重要的标志性事件,就是以“龙虾OpenClaw”为代表的Agent大火。其带来的*区别,是个人的Token使用量大幅增长。
“去年普通人用AI,主要还是跟豆包、元宝聊个天,这不怎么烧Token。但‘龙虾’出现后,又是多轮对话,又是长上下文,Token就烧得非常快。”他解释称。
用AI的人变多了,而AI Agent需要的Token也越来越多,这让需求侧迅速膨胀。二季度以来,此前连准确翻译都难有共识的专业词汇Token加速“破圈”,“Token短缺焦虑”“Token太贵”等频频引发热议。
中信证券此前研报指出,今年4月OpenRouter平台周度累计Token消耗量同比提升了7倍有余。而根据国家数据局统计,截至今年3月,中国日均Token调用量已突破140万亿,两年增长1400倍,相较2025年底也高出至少40%。而今年3月,正是“龙虾热”在国内最为红火的时候。
与此同时,供给侧算力增长有限,远远跟不上需求增速,这不仅导致了模型和相关服务开始涨价,也让前文所述“乱象”扎堆冒头,部分服务商的Token服务质量不升反降,使用者则越来越容易“踩坑”。
4月中旬,OpenRouter统计的中国AI大模型周调用量曾连续下滑,并被美国反超,其中调用成本高、服务质量不稳定被视为重要影响因素。
虽然4月末DeepSeek V4发布并持续优惠、降价后,国产大模型调用量再次上升,但供需问题仍未得到实质性解决,Token服务质量亦未见明显提升。AI产业顾自向前狂奔,而隐忧,仍然存在。
3、如何避坑?
行业正在想办法。
在提升Token服务质量方面,目前的努力方向主要集中在“可视化”“透明化”上。
其中,第三方可构建智能路由实行统一调度;企业端可在现有API网关之上构建一层企业级AI网关;开发团队也可自建评测与开源工具。行业中不乏相关案例,而核心都是让Token的价格、效果更加透明可见。
师天麾所在的清程极智近期推出的AI Ping平台属于*类。根据该公司给出的产品介绍,AI Ping是一站式大模型服务评测与API智能路由平台,主要功能是信息汇总、客观评测和智能路由。目前接入了30余家主流Token服务商和600余个大模型服务,监测的核心指标包括实时输出延迟、吞吐、可靠性、价格等。
在测评之外,智能路由则负责Token的调度。该公司介绍称,AI Ping能够以统一API接口为用户自动匹配*服务商,完成一键调用。公司称,相关功能目前能实现成本降低超37%,吞吐提升超90%,延迟降低超20%。
实际上,这让相关平台也能扮演Token服务商的角色。
师天麾对作者介绍称,AI Ping既能服务于开发者,在To B端的营收也很可观。长期来看,公司希望更加靠近中小企业和普通开发者,因为大厂往往有强大的评测和采购团队,可以逐一测试几十家服务商,但对其他群体来说则几乎不可能做到,而这也成为了公司产品最能发挥作用的领域。
据悉,清程极智成立于2023年12月,是AI Infra领域初创公司,核心团队来自清华大学计算机系高性能计算所,目前已完成天使轮、PreA、PreA+三轮融资,除中科创星、联想创投等机构外,同为“清华系”的AI明星上市公司智谱亦参与投资。
在Token产业维度,该公司还强调,长期来看,解决供需问题还需聚焦国产算力、国产模型的发展、协同,解决诸如国产推理环节长期依赖海外引擎,难以充分释放国产硬件性能等问题。这也与该公司另一项主要业务相关。该公司的赤兔推理引擎,即主打“完全自主研发的国产推理引擎”。公司联合创始人唐适之称,海外推理引擎用在国产算力上,如同“把西式烤面包的技术直接用来蒸馒头”,其中必然存在不适配问题,影响最终效果。而国产推理引擎能在居中的AI Infra层解决问题,提升国产算力在模型部署中的效率和精度,从根上解决“模型变笨”等问题。
Token的“狂飙”仍在继续,高盛此前预测,随着Agent落地企业场景,预计2030年全球Token消耗量较2026年将增长24倍。
在这一背景下,提升服务质量,解决供需错配也变得愈发重要。而对于眼前并不尽如人意的现状来说,企业、开发者乃至普通用户也需更多考虑如何“防骗”“避坑”。
综合行业、机构观点来看,无论是否使用智能路由、企业网关等工具,用户都需注意识别公开标价背后的“真实成本陷阱”;避免盲目下单“无限量”套餐,陷入逆向选择的被动地位;而“死磕”单一模型,不分级、分层、分场景使用,也容易既浪费钱又影响效果。
此外,对于企业来说,大额打包采购,但缺乏统一口径和流程设计,让各部门随意调用的“粗放式”Token用法,也会导致诸多问题。长期来看,能更早建立起高效的Token经营体系,对于将AI转化为真实的商业价值来说十分关键。
【本文由投资界合作伙伴微信公众号:钛媒体授权发布,本平台仅提供信息存储服务。】
【免责声明】:本文不构成任何投资建议。市场有风险,投资需谨慎。
如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。





