Google最新模型翻车？用户质疑「快是快，但不够聪明」

在Google I/O 2026上，Gemini 3.5 Flash拿到了非常靠前的位置：主舞台、默认模型、多条核心产品接入。

按照Google的说法，这是一款为Agent时代准备的Flash模型，速度更快，成本低于Pro，主打代码、工具调用和长任务执行。

它本应该是这场发布会*的赢家。

但发布之后，社区情绪并不兴奋。早期用户的评价很快分裂成两派：

一派承认它“快得离谱”，另一派则质疑它“快是快，但不够聪明”。

有人写道："3.5 Flash*的强处就是快，也就是能够更快地消耗token，完成同样任务反而比3.1 Pro还贵，真绝了。”

Gemini 3.5 Flash到底是Agent时代的性价比*，还是又一个benchmark好看、但真实体验打折的鸡肋模型？

01、无懈可击的benchmark

如果只看官方数据，Gemini 3.5 Flash几乎是一次*发布。

在谷歌公布的benchmark表格上，3.5 Flash以83.6%的成绩领跑MCP Atlas，在Toolathlon、Finance Agent v2、CharXiv Reasoning等多项测试中同样*。

对手包括Anthropic的Claude Opus 4.7和OpenAI的GPT-5.5。

更反常识的是，这是一款Flash级别的模型做到的。

通常，Flash意味着以速度换能力，是Pro系列的精简替代。

但这一次，谷歌声称Gemini 3.5 Flash在多项agent、coding和多模态benchmark上，都超过了自家上一代旗舰Gemini 3.1 Pro。

同时，保持Flash系列一贯的速度优势，输出token速度是其他前沿模型的四倍。

价格是另外一张牌。

Gemini 3.5 Flash定价为输入$1.50、输出$9.00每百万token，按标准API单价计算，分别比 Gemini 3.1 Pro低约25%。

叠加90%的缓存折扣后，对于大规模调用Agent的企业用户，成本优势进一步放大。

谷歌甚至算了一笔账：

企业若将80%的工作负载切换至Flash，在每日万亿token的规模下，每年可节省超过十亿美元。

速度、能力、成本，三张牌同时打出，这组数字讲述了一个*的AI故事。

但benchmark是在实验室里跑出来的。用户要面对的，是真实世界里的任务。

当3.5 Flash离开精心设计的测试环境，交到真实用户手里，这些数字还能撑住吗？

02、尖锐的用户反馈

在早期用户的反馈中，速度这件事，几乎没有争议。

有人在Reddit上说，它的速度确实夸张，跑起来像“比GPT-5.5快了一个数量级”；

也有人在X上用Antigravity CLI试了一圈后评价，*感受就是“insanely fast”。

这类反馈说明，Google至少把Flash名字里的“快”做出来了。

这对于Agent工作流的意义，远比单次对话场景深刻。

Agent不是一次性回答，是多轮规划、调用、执行、修正的闭环。

当模型快到某个临界点，整个工作流的性质会发生质变。一些之前因为延迟太高而根本不可行的任务，就能变得实际可操作。

但速度之外，质疑声接踵而至，主要集中在两个方向。

一是定价。

Reddit上有用户列出了价格变化的轨迹：

Gemini 2.5 Flash的定价是输入$0.30、输出$2.50（每百万token），3.0 Flash涨到输入$0.50、输出$3.00，而3.5 Flash直接跳到了输入$1.50、输出$9.00。

这位用户写道："我从没见过同级别下一代模型价格涨了三倍。"

另一位用户跟帖："价格都涨到这里了，它还算Flash吗？"

还有人的解读更为尖锐："他们大概从来没打算永远维持低价。现在用户已经在他们的API上搭好了服务，是时候慢慢收紧了。"

但这次更值得关注的，是计费逻辑的悄然切换。

早在Gemini 2.5 Pro阶段，谷歌就已经用每日prompt次数，来管理高阶模型的使用量。

真正的变化发生在这次Google I/O 2026大会上，Gemini App从每天能问多少次，变成了每次任务消耗多少算力。

一个简单的文本问题和一次长上下文代码任务，不再被视为同一价格。

这个逻辑切换背后，是Gemini 3.5 Flash的核心定位所决定的。

它是为Agent而生的模型，长链路、多工具调用、持续执行，每一步都在消耗算力。

当模型越来越擅长处理复杂任务，按次计费的模式自然撑不住了。

Google需要一个能跟任务复杂度挂钩的计量单位，这在商业逻辑上完全自洽。

但对用户来说，你越信任它，越把它用在复杂的事情上，你的额度就消耗得越快。

二是质量。

这里的争议更难定论，但也更耐人寻味。

Linux.do社区的对比测试发现，在复杂人文概念的讨论上，3.5 Flash即便开启最高思考模式，深度和细腻度仍明显逊色于上一代3.1 Pro，社区成员形容它在"软技能"场景里"过于机械和生硬"。

Reddit用户的批评则更直接："完成同样的任务消耗的token比3.1 Pro还多，单任务花的钱反而更多了......coding能力上的进步基本完全没提"。

值得注意的是，这些批评目前还停留在早期印象层面，系统性的独立评测尚未到来。

但它们至少表明，AI模型的评价坐标，已经从benchmark分数，迁移到在真实工作流里的表现。

03、冷静的资本市场

发布会前，Google已处在高预期中。

有市场报道提到，其股价过去一年涨幅巨大，华尔街多数分析师维持看多.

这意味着Google I/O 2026大会必须给出足够强的增量信号，才能继续支撑估值。

发布会当天，Google开盘后随即冲高，但随着发布会内容逐渐展开，股价开始回落，最终收盘较日内高点下跌约3.5%。

市场等待的，是一个能重新定义竞争格局的旗舰级信号。

但得到的，是一款速度很快的Flash模型，以及真正的旗舰版Gemini 3.5 Pro要到下个月才能发布。

Bank of America发布会前就已预警，若公告内容缺乏实质亮点，股价将面临压力。

这个预警在收盘时得到了验证。

AI军备竞赛走到今天，投资者已经不再为发布会本身鼓掌，他们在等的是商业化兑现的证据。

【本文由投资界合作伙伴微信公众号：世界模型工场授权发布，本平台仅提供信息存储服务。】如有任何疑问，请联系（editor@zero2ipo.com.cn）投资界处理。

Google最新模型翻车？用户质疑「快是快，但不够聪明」

AI投资人解读

相关资讯

未来智能发布viaim讯飞智能体耳机：迈出“AI Agent”战略第一步

I/O 2026：谷歌抢先定义下一代入口，只为更好收费做生意

AI需求火热，存储厂商「冷落」苹果

AI驱动的新材料研发公司「新研智材」完成数千万元天使轮融资

为AI数据中心提供超导配电解决方案，能量桥完成新一轮融资

Gemini 3.5 发布：谷歌用「价格砍半、速度4倍」逼竞争对手出局

关于我们

对外合作

投稿邮箱

联系我们

投资界微信

投资界APP