效仿 HBM 架构 高带宽堆叠闪存 HBF 正式问世
本文要点
当下主流大模型 AI 推理任务需要调用数十亿级参数,参数数据调度搬运耗费大量时间与能耗。业界正推动高带宽闪存(HBF) 标准化落地,旨在将海量模型权重就近部署,直接与 GPU 封装集成。
闪存具备大容量、无需刷新数据的优势,但读写性能长期难以匹配高速算力运算需求。为此闪迪推出16 颗存储裸片 + 基底裸片的堆叠闪存方案,物理尺寸与 HBM 保持一致,采用专属接口协议,正式命名为高带宽闪存 HBF。
新思科技应用工程执行董事林熙伟表示:“HBF 由闪迪于 2025 年正式发布,依托闪存实现高带宽、大容量存储定位,核心面向 AI 推理应用场景。”
借助 HBF 可将全套模型权重就近部署在 GPU 封装内,无需向外调度,搭配优化后的读取架构,实现参数高速调取。
澜起科技杰出发明家史蒂文・吴称,在行业寻求新型存储层级、补齐 DRAM 与传统 NAND 闪存性能断层的趋势下,HBF 获得业内高度关注。
目前闪迪已联合 SK 海力士,将该技术提交至开放计算项目联盟 OCP 推进行业标准化。史蒂文・吴透露,闪迪计划 2026 年下半年送出首批 HBF 样片,2027 年早期推出首款搭载 HBF 的 AI 推理芯片样品。
告别远距离权重调度
AI 算力运算数据大致分为两大类:第一类为模型输入数据与各层运算中间结果,属于实时动态数据,行业统称激活值,需要实时读写调取存储空间。第二类是代表模型核心逻辑的权重参数,在单次推理运行中固定不变,理论上可直接集成部署在 GPU 等处理器内部。
但现实难题在于大模型权重数据体量庞大,远超单颗处理芯片的内置存储容量。
存内计算(IMC/CIM)技术可改造非易失性存储阵列实现向量乘法运算,实现权重一次写入、多次调用,仅调度动态激活值数据。但该方案存储容量上限偏低,无法适配当下超大参数规模大语言模型,难以普及落地。
处理器就近存储权重方案
以往超大模型权重只能存放于机架式 SSD 等远端大容量非易失性存储中,数据调度链路长、时延极高,更远端的网络附属存储设备调度效率更低。
传统三级缓存调度架构:
非易失性闪存:长期存放全套模型权重
常用权重从闪存调入 DRAM(含 HBM)缓存
最终调入处理器内部 SRAM 高速读取
首次调用权重会历经多层级调度,时延居高不下;缓存空间有限,权重频繁置换反复长距离搬运,严重拖累推理效率。
HBF 设计思路对标 HBM,采用多颗高带宽非易失性存储裸片堆叠,与处理器共封装集成。相较于 HBM 加速传统内存调度,HBF 可直接跳过 DRAM 层级就近存放权重,大幅缩短数据搬运路径,仅会对原有缓存架构带来一定调整难度。

图 1.HBF 在人工智能中的作用。它使得权重能够存储在封装内部,而非分散在网络的各个部分。来源:Bryon Moyer/Semiconductor Engineering
Expedera 联合创始人兼首席科学家沙拉德・乔利指出:“HBF 填补了高带宽访问与超大容量存储之间的技术空白,将堆叠式高速闪存直连 AI 加速芯片,实现类 DDR 内存级别的便捷调用,打破 PCIe 接口固有时延与带宽限制,简化未来算力硬件设计。”
全新架构下,HBM 仅用于存放运算过程中实时生成的激活值动态数据,模型静态权重统一交由 HBF 承载。
联电先进封装总监王百朴表示:“行业主流思路为外置存储载入模型权重,依靠 DRAM 完成实时运算调度。”
闪存技术固有短板
HBF 依托 NAND 闪存打造,核心优势为超大容量。澜起科技史蒂文・吴介绍:“同等读取带宽与成本条件下,HBF 存储容量可达 HBM 的 8~16 倍。”
西门子 EDA 存储研究总监尹钟信补充:“主流 HBM 堆叠模组最大容量 192GB,下一代产品目标 400GB,而 HBF 单堆叠模组容量已可达 3 太比特。”
闪存与生俱来的短板集中在写入性能,多重物理特性限制写入速度:
闪存单元写入前必须完成擦除操作,防止过编程损坏存储单元
闪存按区块架构设计,仅修改单比特数据也需整区块擦除重写
闪存写入存在固有物理时延
擦除后需重新写入区块内全部有效数据
即便持续优化工艺,闪存写入性能瓶颈无法彻底突破,因此HBF 无法完全替代 HBM。AI 算力系统依旧需要高速可读写内存支撑动态运算数据,这也是传统闪存架构无法逾越的壁垒。
存储行业分析师吉姆・汉迪表示:“闪存主打高性价比设计,必然牺牲部分运行速度,性能短板集中体现在写入周期,受底层物理原理制约难以改善,但闪存读取速率具备优化提升空间。”
精准定位:专攻 AI 推理场景
受写入速度制约,HBF 精准聚焦AI 推理场景,不适用于 AI 模型训练场景。吉姆・汉迪解释:“模型训练需要实时迭代更新权重参数,写入需求频繁;而推理阶段权重固定不变,仅需高频读取调用,完美契合 HBF 应用特性。”
闪迪闪存设计高级总监徐辛西娅表示,品牌已深度优化 HBF 内部读取通路,在保证堆叠裸片一体化设计的前提下,依托多阵列并行读写架构,搭配闪存颗粒、主控芯片、固件一体化协同设计,进一步压低权重调取时延,实现更低稳定时延、更均衡传输带宽。
除此之外,闪存存在擦写寿命上限,主流闪存擦写次数仅数千次,少数高端产品可达万次级别,目前 HBF 整体耐久度指标尚未明确。
业界同期还有磁阻内存 MRAM、阻变内存 RRAM 等新型非易失存储技术,但均尚未成熟落地。MRAM 技术相对完善,但无法同时兼顾高速读写与长期数据留存;RRAM 研发周期漫长,量产成本居高不下,短期内难以抗衡工艺成熟、产业链完善的 NAND 闪存,这也是闪迪选择深耕闪存优化 HBF 技术的核心原因。
徐辛西娅称:“团队长期调研各类新型非易失存储技术,最终敲定依托成熟 NAND 闪存打造 HBF,凭借闪存高密度、易扩容、低成本三大核心优势,依托现有成熟产业链,重构架构满足 AI 场景高带宽读取需求。”
核心参数与产品迭代路线
HBF 单个芯片的容量为 256GB,16 块芯片堆叠在一起的总容量为 512GB。其读取带宽为 1.6TB/秒。它将与 HBM4 的尺寸、功耗特性和物理堆叠高度相匹配。
闪迪预计今年下半年会有样品供应,2027 年会有相关系统出现。该公司还透露了未来改进的路线图。
第一代 | 第二代 | 第三代 | |
存储容量 | 1× | 1.5× | 2× |
读取带宽 | 1× | 1.45× | 2× |
功耗水平* | 1× | 0.8× | 0.64× |
* 注:数值越低代表功耗控制越优秀
闪迪主营全品类非易失性存储产品,此次联合深耕 DRAM 与闪存领域的 SK 海力士,共同推动 HBF 在 OCP 联盟内建立统一行业标准。
林熙伟强调:“HBF 无法直接引脚兼容替换 HBM,二者接口架构完全不同,全行业统一标准是技术普及的前提,目前两家企业已签署合作备忘录,后续将吸纳更多厂商参与共建生态。”
主流内存标准多由 JEDEC 协会制定,闪迪选择依托 OCP 推进标准化,徐辛西娅对此解释:“OCP 工作组目标导向性更强,可快速迭代规范协议,精准匹配 AI 行业高速创新节奏。”
针对 HBM4 可定制基底裸片的特性,徐辛西娅表示 HBF 后续会跟进相关定制化设计,现阶段优先完成行业统一规范搭建,打通软硬件全产业链适配壁垒。
行业发展展望
HBF 应用场景定位清晰,初期看似针对性较强,但其发展历程与早年 HBM 高度相似,后续市场价值将持续释放。AI 大模型推理属于海量刚需场景,市场规模持续扩张,固定权重就近存储已是行业必然趋势。
HBF 为数据中心 AI 加速芯片设计提供全新架构思路,补齐存储层级空白,为硬件架构设计师提供全新优化方向,长远来看将彻底改变 AI 算力集群的数据调度与存储布局模式。









评论