最近,英伟达战略性收购 AI 推理新秀 Groq 的事件,像一颗深水炸弹,在科技界引发了强烈震荡。这场交易不仅让 LPU(张量流处理器)背后的 SRAM 技术走向台前,更引发了一场关于“SRAM 是否会取代 HBM”的行业大辩论。
在近日召开的CES 2026会上,有采访人问黄仁勋相关的问题中,黄仁勋表示:“如果一切都能装进 SRAM,那确实不需要HBM,然而。。。”
SRAM和HBM:
电子世界的“口袋”与“仓库”
要理解这句话的含金量,我们得先搞清楚:这两个缩写到底代表了什么?
在计算机世界里,数据存储遵循一个铁律:越快的东西越贵、越占地方;越大的东西越慢。
SRAM(静态随机存取存储器)是目前世界上最快的存储介质之一,直接集成在 CPU/GPU 核心旁边。它不需要像 DRAM 那样定时“刷新”电量,只要有电,数据就稳如泰山。形象的来比喻,它就像是你的“衬衫口袋”。伸手即得,速度极快(纳秒级),但空间极小,只能放几张名片(几百MB)。
HBM(高带宽存储器)本质上仍是DRAM(动态随机存取存储器),我们电脑/服务器里最常见的内存条,容量大、便宜。只是用3D堆叠 + 超宽接口“贴着”GPU/加速器封装在一起,追求的是带宽,而不是把“每次访问的延迟”降到 SRAM 那个级别。它就好像是你家楼下的“大型仓库”。容量巨大(几十GB),搬运货物的“门”(带宽)也非常宽,但你得走一段路才能到,存在物理延迟。
为何HBM被挑战?
过去十年,AI芯片的核心战场只有一个:训练。模型参数动辄百亿甚至是千亿级,其计算强度极高,数据复用率高、可批量处理。在这种模式下:容量第 一,带宽第二,延迟反而不敏感,这正是HBM的舒适区。大容量、堆叠封装、极高顺序带宽,与 GPU 的大规模并行计算天然匹配。这也是为什么,HBM几乎成为“AI芯片 = GPU”的默认前提。
但当 AI 走向“推理”阶段(即真实世界的使用),规则变了。在应用端也就是到推理阶段,特别是人机交互和实时控制场景,延迟才是生命线。
根据Groq的技术文献,传统GPU架构(如 NVIDIA A100/H100)高度依赖 HBM。HBM 本质上是 DRAM的垂直堆叠,虽然带宽惊人,但其存取权重时仍会引入数百纳秒的延迟。在 Batch Size = 1(即单次请求、零等待处理)的实时推理场景中,GPU必须频繁重新加载权重,导致执行停滞,性能剧烈下滑。
这里有一个“出身”问题:如下图所示,在传统的GPU内存结构当中,当处理单元引用本地缓存时,会开始繁琐的缓存填充和回写过程。这些处理单元属于流式多处理器(SM)核心,所有核心都在动态竞争共享的 DRAM 控制器。具体而言,80 个核心正在执行线程,实现总共 32 个单指令多线程(SIMT),这意味着总共有 2560 个线程在竞争共享 DRAM 控制器中的 16 个 HBM2e 伪通道。这导致了漫长的等待时间,并因为对共享资源的动态竞争导致了重测序、延迟波动和不可预测的性能,从而造成系统层面的不确定性。
为了掩盖这种延迟,传统架构被迫增加“批大小”(Batch Size),即攒够 256 个请求再一起处理。这在训练中很有效,但在推理中却导致了明显的延迟:正如我们在 ChatGPT 或 Gemini 中看到的,文字往往是“蹦”出来的,而不是像真人对话那样丝滑瞬时呈现。
SRAM作“主存”为何合理?
那么,为何SRAM作为“主存”,会在推理中突然变得合理?
SRAM不是因为AI才出现的,它一直存在,但长期只被当“缓存(Cache)”使用。在过往发展中,CPU的L1 / L2 / L3 Cache 全是 SRAM,GPU的Register File、本地 Cache 也是 SRAM,此外在NPU / DSP一直有小规模 SRAM。
过去没有人敢、也没必要,把SRAM 当“主内存”。原因很现实:面积太大、成本太高、工艺缩放比逻辑电路慢。而且过去几年,业界普遍存在一种悲观情绪:SRAM 缩放撞墙了。在台积电的 5nm 到 3nm 演进中,逻辑晶体管(计算单元)缩小了约 1.6 倍,但 SRAM 单元几乎没有缩小(仅约 5%)。这导致在单枚芯片(Die)上,SRAM 占用的面积越来越大,成本飙升。
但 Groq 采取了“反向思维”。既然 SRAM 缩放慢,那我就不再把它当作“昂贵的缓存”,而是利用它在先进制程下极高的开关速度和确定性。Groq 芯片目前主要采用台积电 14nm/7nm。在这些节点上,SRAM 的技术非常成熟。但Groq官方路线图是计划走向 4nm。到了4nm 或更先进的 GAA(全环绕栅极) 架构下,虽然 SRAM 单元面积缩小依然缓慢,但由于静噪边际改善,大规模 SRAM 的读写稳定性反而更高了。
在技术本质上,SRAM相比DRAM的访问延迟不是“更快一点”,而是“快一个数量级”。HBM / DRAM的典型访问延迟大约在100ns,而SRAM仅需1ns。当权重直接常驻在 SRAM 中,不需要Cache 猜测、预取、等待,这不是优化,而是物理层级的改变。
Groq LPU的核心杀手锏是完全抛弃HBM作为主存储,改用数百MB的片上SRAM存放模型权重。Groq的芯片将SRAM集成在处理器内部,访问延迟仅为 HBM 的几分之一。据Groq 官方数据显示,其片上带宽高达 80TB/s。
下图展示了 GroqChip 如何利用异构线程或“直线”线程,即线程不分支,而是对应不同的执行功能单元。数据路径在两个方向上完全流水线化。指令垂直流水线化,而数据流向东西方向流动,在功能单元处交叉执行运算,充分利用了局部性。我们可以从内存读取数值,在向量单元上进行运算,然后将结果存回内存。此外,GroqChip 将计算与内存访问解耦——这对于实现更高的内存级并行性(MLP)至关重要,使大量读写操作可以同时处于在途状态。这意味着 GroqChip 在单步内即可完成有效的计算与通信,提供低延迟、高性能以及可预测的准确性。
进一步的,下图展示了 GroqChip 如何高效地展现指令级并行(ILP)、内存级并行(MLP)和数据级并行(DLP),采用独特的同步计算与通信方法。在开发完成后,控制权交给了软件端,通过大规模并行编译器来利用所有这些形式的并发。这促成了 Groq 在 Batch 1 下提供高性能的能力。在其他架构中,训练通常采用 256 批次,这意味着在应用能提供关于第 一张图像的信息之前,必须处理并“学习”完所有 256 张图像。而 Groq 在 Batch 1 下运行,图像一接收就处理(无需等待 256 张凑齐),不仅减少了等待,还提升了准确性。此外,Groq 架构允许开发者无需像在 GPU 或其他传统架构中那样去平摊长延迟成本。
所以,SRAM真正的隐性优势是其确定性。“快”和“每次都一样快”,是两件完全不同的事。为什么“不确定延迟”很可怕?看视频卡一下,你可能只是不爽,但是自动驾驶卡一下,可能已经撞了。
对工业控制、自动驾驶、金融风控、核聚变、能源调度等这些场景来说,“确定性”比“平均性能”更重要。这也是为什么 Groq 在 Argonne 实验室、金融行业 benchmark 中特别强调“deterministic ML”。在阿贡国家实验室(Argonne National Laboratory)的托卡马克核聚变反应堆预测任务中,Groq 的确定性架构在 0.6ms内实现了 19.3 万次推理(IPS),比Nvidia A100结果高出 600多倍。这是 GPU 体系结构先天不擅长的维度。
在近日的CES 2026大会期间,有采访者问黄仁勋:英伟达已经拥有 CPX 技术,并通过收购 Groq 获得了推理所需的 SRAM 访问权限。英伟达的团队一个月前发表了一篇关于利用 CPX 减少 HBM 使用的论文,建议 GDDR7 可以替代 HBM。展望未来,Grok (=SRAM) + 内部 CPX 的组合是否能让 HBM 使用量控制在更“可控”的水平?这会对利润率产生积极影响吗?
CPX(计算与存储解耦/压缩技术) 结合 GDDR7 或 HBM。根据英伟达近期发表的论文,利用 CPX 可以减少对昂贵 HBM 的依赖,甚至在某些场景下用 GDDR7 替代 HBM。
对于上述提问,黄仁勋的答复是:“先解释各自的优势,再说明为什么没那么简单。CPX 在单位成本的预填充(Prefill)性能上更优。如果一切都能装进 SRAM,HBM 确实没必要。然而,问题是这会使模型尺寸缩小约 100 倍。”这就是 SRAM 的致命伤:太占地方,太贵了。 如果你想让一个千亿参数的大模型(如 Llama 3)完全跑在 SRAM 上,你可能需要成百上千颗 Groq 芯片,其成本和电力消耗将是一个天文数字。
黄仁勋强调,“灵活性使我们成为了通用答案。” 面对不断变化的 MoE(混合专家模型)、多模态、甚至是 SSM(状态空间模型),能够灵活切换压力点(NVLink、HBM 或计算单元)的架构才是数据中心 TCO 的最 优解。
英伟达收购 Groq 并不代表要全面倒向 SRAM,而是在补齐“极 致低延迟推理”这一块拼图。黄仁勋指出,数据中心本质上是“有限的电力资源”,而非无限的空间。针对单一工作负载(如特定的极速推理)进行极 致优化是可能的,但如果这种优化只能覆盖 10% 的任务,剩下的电力就会被浪费。有限的电力必须在整个数据中心内得到优化利用,因此灵活性越高越好。
集成度更高的架构也更好——例如,更新 DeepSeek 模型可以瞬间提升数据中心所有 GPU 的表现。更新模型库可以改善整个数据中心。明白吗?如果拥有 17 种零散的架构,这个适合那个,那个适合这个,结果就是整体 TCO(总拥有成本)提升并不明显。“总之,CPX 确实有优势,但也会降低数据中心的灵活性。”黄仁勋表示。
结论
SRAM并不是突然崛起的新技术,而是在 AI 推理时代,被放到了一个从未承担过的位置。它的优势不在于容量或性价比,而在于确定性、能效和极低延迟;它的限制也同样明确,面积、成本,以及对模型规模的天然约束。
因此,“SRAM 取代 HBM”是一个伪命题,真正的命题是「AI 推理如何实现 TCO 最 优解」。推理不是“算力终点”,而是“用量起点”。一个常被忽略的事实是:训练只发生一次,推理会发生数十亿次。训练像“造发动机”,推理像“上路开车”,造发动机只造一次,但上路会开很多很多次。
所以推理体验变好(更低延迟、更自然响应)带来的结果,往往不是“HBM 用得更少”,而是:在追求极 致速度的边缘侧(如 AI 眼镜、工业实时控制)和特定高性能推理场景,SRAM 确实在通过 ASIC 架构蚕食 HBM 的份额;但在大规模数据中心,HBM 依然是承载海量参数的基石;此外,SSD/NAND 则要负责模型分发、冷数据与长上下文存储扩展。
对于投资者和行业从业者而言,不应押注单一技术的胜负,而应关注存储层级化带来的全面机遇。在这个时代,快有快的代价(SRAM 的高昂成本与低密度),慢有慢的平衡(HBM 的高带宽与通用性),两者将在 AI 推理的星辰大海中并肩而行。
【本文由投资界合作伙伴微信公众号:半导体行业观察授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。
旗下微信矩阵:















