拆解大模型推理:SambaNova × 英特尔异构计算架构详解
SambaNova 与英特尔联合推出了一套大模型异构推理架构蓝图,标志着现代大语言模型(LLM)部署方式的重大转变。该架构不再依赖单一加速芯片,而是将推理的不同阶段分配给专用硬件:
这一设计专门应对智能体 AI 系统日益复杂的需求 —— 推理循环、工具调用、迭代执行带来的异构算力压力,无法靠单一加速集群高效满足。
该方案的核心观点是:推理并非单一负载,而是由多个性能瓶颈完全不同的计算阶段组成。
1. 预填充阶段(Prefill)
预填充负责处理用户提示词、计算注意力矩阵、构建键值缓存。这一阶段高并行、计算密集,GPU 是最高效的选择。
GPU 擅长密集矩阵运算与高吞吐张量计算
可快速处理长提示词,降低首 Token 延迟
将预填充单独交给 GPU,能避免算力浪费,提升利用率
2. 解码阶段(Decode)
预填充之后进入解码阶段,逐一生成 Token。解码与预填充本质不同:它是内存带宽瓶颈型负载,高度依赖注意力缓存的高效访问。
GPU 虽强,但在串行 Token 生成场景下效率偏低
SambaNova RDU 专为数据流执行优化,内存访问模式更适配 Transformer 解码
能提升 Token 吞吐、降低延迟,尤其适合长上下文与多步推理
3. 智能体调度:英特尔至强 6 CPU
架构第三部分是用至强 6 CPU承担智能体工具调用与全局编排。
现代智能体 AI 频繁需要外部操作:数据库查询、API 调用、代码执行、工作流管理等。这些任务不适合加速器,更适合通用 CPU 的大内存与成熟软件生态。
至强 6 作为控制平面,协调 GPU 与 RDU
负责工具执行、校验、决策逻辑
让加速器专注推理,CPU 专注流程逻辑与企业系统集成
架构优势
硬件利用率大幅提升
每种芯片都工作在最优区间:GPU 扛并行计算、RDU 扛内存敏感型 Token 生成、CPU 扛控制与编排。
智能体负载扩展性更强
智能体多步推理会累积解码延迟,专用 RDU 可缓解这一瓶颈。
模块化弹性扩缩
可根据负载独立扩容 GPU 池、RDU 池、CPU 池。
成本更优
纯 GPU 方案在解码与编排阶段利用率很低。把这些任务剥离到专用硬件,可减少过度配置 GPU。同时 x86 架构兼容现有企业软件栈,降低集成成本。
这套架构也反映出 AI 负载向智能体推理系统演进的趋势:传统聊天是单次生成,现代智能体需要反复规划、执行、修正。异构架构天然匹配这种交替式计算模式,降低瓶颈、提升响应速度。

总结
SambaNova 与英特尔的这套方案,给出了下一代 AI 基础设施的可行路线:
从单一加速集群走向专用算力编织,用 GPU 做预填充、RDU 做解码、至强 6 做智能体调度,全面提升性能、利用率与扩展性,也预示了未来 AI 数据中心将如何支撑更复杂的推理系统。









评论