新闻中心

EEPW首页 > 智能计算 > 业界动态 > 拆解大模型推理:SambaNova × 英特尔异构计算架构详解

拆解大模型推理:SambaNova × 英特尔异构计算架构详解

作者: 时间:2026-04-20 来源: 收藏

联合推出了一套大模型异构推理架构蓝图,标志着现代大语言模型(LLM)部署方式的重大转变。该架构不再依赖单一加速芯片,而是将推理的不同阶段分配给专用硬件:

  • GPU 负责预填充(Prefill)

  • 可重构数据流处理器(RDU)负责解码(Decode)

  • 至强 6 CPU 负责智能体工具调用与整体编排

这一设计专门应对智能体 AI 系统日益复杂的需求 —— 推理循环、工具调用、迭代执行带来的异构算力压力,无法靠单一加速集群高效满足。

该方案的核心观点是:推理并非单一负载,而是由多个性能瓶颈完全不同的计算阶段组成。

1. 预填充阶段(Prefill)

预填充负责处理用户提示词、计算注意力矩阵、构建键值缓存。这一阶段高并行、计算密集,GPU 是最高效的选择。

  • GPU 擅长密集矩阵运算与高吞吐张量计算

  • 可快速处理长提示词,降低首 Token 延迟

  • 将预填充单独交给 GPU,能避免算力浪费,提升利用率

2. 解码阶段(Decode)

预填充之后进入解码阶段,逐一生成 Token。解码与预填充本质不同:它是内存带宽瓶颈型负载,高度依赖注意力缓存的高效访问。

  • GPU 虽强,但在串行 Token 生成场景下效率偏低

  • RDU 专为数据流执行优化,内存访问模式更适配      Transformer 解码

  • 能提升 Token 吞吐、降低延迟,尤其适合长上下文与多步推理

3. 智能体调度:至强 6 CPU

架构第三部分是用至强 6 CPU承担智能体工具调用与全局编排。

现代智能体 AI 频繁需要外部操作:数据库查询、API 调用、代码执行、工作流管理等。这些任务不适合加速器,更适合通用 CPU 的大内存与成熟软件生态。

  • 至强 6 作为控制平面,协调 GPU 与 RDU

  • 负责工具执行、校验、决策逻辑

  • 让加速器专注推理,CPU 专注流程逻辑与企业系统集成 

架构优势

  1. 硬件利用率大幅提升

每种芯片都工作在最优区间:GPU 扛并行计算、RDU 扛内存敏感型 Token 生成、CPU 扛控制与编排。

  1. 智能体负载扩展性更强

智能体多步推理会累积解码延迟,专用 RDU 可缓解这一瓶颈。

  1. 模块化弹性扩缩

可根据负载独立扩容 GPU 池、RDU 池、CPU 池。

  1. 成本更优

纯 GPU 方案在解码与编排阶段利用率很低。把这些任务剥离到专用硬件,可减少过度配置 GPU。同时 x86 架构兼容现有企业软件栈,降低集成成本。

这套架构也反映出 AI 负载向智能体推理系统演进的趋势:传统聊天是单次生成,现代智能体需要反复规划、执行、修正。异构架构天然匹配这种交替式计算模式,降低瓶颈、提升响应速度。

1776670471755933.png

总结

SambaNova 与英特尔的这套方案,给出了下一代 AI 基础设施的可行路线:

从单一加速集群走向专用算力编织,用 GPU 做预填充、RDU 做解码、至强 6 做智能体调度,全面提升性能、利用率与扩展性,也预示了未来 AI 数据中心将如何支撑更复杂的推理系统。


评论


相关推荐

技术专区

关闭