旗下矩阵

  • 投资界
  • 天天IPO
  • 解码LP
  • 并购
  • 前哨
  • 投资界AI

Google最新模型翻车?用户质疑「快是快,但不够聪明」

Google I/O 2026上Gemini 3.5 Flash发布,官方数据优但用户反馈不一,价格和质量遭质疑,资本市场反应平淡,其商业化兑现待察。
·微信公众号:世界模型工场世界模型工场

AI投资人解读

· Gemini 3.5 Flash在多项测试中排名靠前,速度是其他前沿模型四倍,定价有优势,叠加缓存折扣后成本更低。
· 早期用户反馈其速度快,但定价上涨且计费逻辑切换,复杂任务成本或增质量方面,在复杂人文概念讨论上表现逊色于上一代。
总结:该模型虽有性能与成本优势,但在定价和质量上存争议,需关注用户反馈和市场表现,其商业化前景待进一步观察。内容由AI生成,仅供参考

在Google I/O 2026上,Gemini 3.5 Flash拿到了非常靠前的位置:主舞台、默认模型、多条核心产品接入。

按照Google的说法,这是一款为Agent时代准备的Flash模型,速度更快,成本低于Pro,主打代码、工具调用和长任务执行。

它本应该是这场发布会*的赢家。

但发布之后,社区情绪并不兴奋。早期用户的评价很快分裂成两派:

一派承认它“快得离谱”,另一派则质疑它“快是快,但不够聪明”。

有人写道:"3.5 Flash*的强处就是快,也就是能够更快地消耗token,完成同样任务反而比3.1 Pro还贵,真绝了。”

Gemini 3.5 Flash到底是Agent时代的性价比*,还是又一个benchmark好看、但真实体验打折的鸡肋模型?

01、无懈可击的benchmark

如果只看官方数据,Gemini 3.5 Flash几乎是一次*发布。

在谷歌公布的benchmark表格上,3.5 Flash以83.6%的成绩领跑MCP Atlas,在Toolathlon、Finance Agent v2、CharXiv Reasoning等多项测试中同样*。

对手包括Anthropic的Claude Opus 4.7和OpenAI的GPT-5.5。

更反常识的是,这是一款Flash级别的模型做到的。

通常,Flash意味着以速度换能力,是Pro系列的精简替代。

但这一次,谷歌声称Gemini 3.5 Flash在多项agent、coding和多模态benchmark上,都超过了自家上一代旗舰Gemini 3.1 Pro。

同时,保持Flash系列一贯的速度优势,输出token速度是其他前沿模型的四倍。

价格是另外一张牌。

Gemini 3.5 Flash定价为输入$1.50、输出$9.00每百万token,按标准API单价计算,分别比 Gemini 3.1 Pro低约25%。

叠加90%的缓存折扣后,对于大规模调用Agent的企业用户,成本优势进一步放大。

谷歌甚至算了一笔账:

企业若将80%的工作负载切换至Flash,在每日万亿token的规模下,每年可节省超过十亿美元。

速度、能力、成本,三张牌同时打出,这组数字讲述了一个*的AI故事。

但benchmark是在实验室里跑出来的。用户要面对的,是真实世界里的任务。

当3.5 Flash离开精心设计的测试环境,交到真实用户手里,这些数字还能撑住吗?

02、尖锐的用户反馈

在早期用户的反馈中,速度这件事,几乎没有争议。

有人在Reddit上说,它的速度确实夸张,跑起来像“比GPT-5.5快了一个数量级”;

也有人在X上用Antigravity CLI试了一圈后评价,*感受就是“insanely fast”。

这类反馈说明,Google至少把Flash名字里的“快”做出来了。

这对于Agent工作流的意义,远比单次对话场景深刻。

Agent不是一次性回答,是多轮规划、调用、执行、修正的闭环。

当模型快到某个临界点,整个工作流的性质会发生质变。一些之前因为延迟太高而根本不可行的任务,就能变得实际可操作。

但速度之外,质疑声接踵而至,主要集中在两个方向。

一是定价。

Reddit上有用户列出了价格变化的轨迹:

Gemini 2.5 Flash的定价是输入$0.30、输出$2.50(每百万token),3.0 Flash涨到输入$0.50、输出$3.00,而3.5 Flash直接跳到了输入$1.50、输出$9.00。

这位用户写道:"我从没见过同级别下一代模型价格涨了三倍。"

另一位用户跟帖:"价格都涨到这里了,它还算Flash吗?"

还有人的解读更为尖锐:"他们大概从来没打算永远维持低价。现在用户已经在他们的API上搭好了服务,是时候慢慢收紧了。" 

但这次更值得关注的,是计费逻辑的悄然切换。

早在Gemini 2.5 Pro阶段,谷歌就已经用每日prompt次数,来管理高阶模型的使用量。

真正的变化发生在这次Google I/O 2026大会上,Gemini App从每天能问多少次,变成了每次任务消耗多少算力。

一个简单的文本问题和一次长上下文代码任务,不再被视为同一价格。

这个逻辑切换背后,是Gemini 3.5 Flash的核心定位所决定的。

它是为Agent而生的模型,长链路、多工具调用、持续执行,每一步都在消耗算力。

当模型越来越擅长处理复杂任务,按次计费的模式自然撑不住了。

Google需要一个能跟任务复杂度挂钩的计量单位,这在商业逻辑上完全自洽。

但对用户来说,你越信任它,越把它用在复杂的事情上,你的额度就消耗得越快。

二是质量。

这里的争议更难定论,但也更耐人寻味。

Linux.do社区的对比测试发现,在复杂人文概念的讨论上,3.5 Flash即便开启最高思考模式,深度和细腻度仍明显逊色于上一代3.1 Pro,社区成员形容它在"软技能"场景里"过于机械和生硬"。

Reddit用户的批评则更直接:"完成同样的任务消耗的token比3.1 Pro还多,单任务花的钱反而更多了......coding能力上的进步基本完全没提"。

值得注意的是,这些批评目前还停留在早期印象层面,系统性的独立评测尚未到来。

但它们至少表明,AI模型的评价坐标,已经从benchmark分数,迁移到在真实工作流里的表现。

03、冷静的资本市场

发布会前,Google已处在高预期中。

有市场报道提到,其股价过去一年涨幅巨大,华尔街多数分析师维持看多.

这意味着Google I/O 2026大会必须给出足够强的增量信号,才能继续支撑估值。

发布会当天,Google开盘后随即冲高,但随着发布会内容逐渐展开,股价开始回落,最终收盘较日内高点下跌约3.5%。 

市场等待的,是一个能重新定义竞争格局的旗舰级信号。

但得到的,是一款速度很快的Flash模型,以及真正的旗舰版Gemini 3.5 Pro要到下个月才能发布。

Bank of America发布会前就已预警,若公告内容缺乏实质亮点,股价将面临压力。

这个预警在收盘时得到了验证。

AI军备竞赛走到今天,投资者已经不再为发布会本身鼓掌,他们在等的是商业化兑现的证据。

【本文由投资界合作伙伴微信公众号:世界模型工场授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。