拆解大模型推理：SambaNova × 英特尔异构计算架构详解

作者：时间：2026-04-20 来源：

SambaNova 与英特尔联合推出了一套大模型异构推理架构蓝图，标志着现代大语言模型（LLM）部署方式的重大转变。该架构不再依赖单一加速芯片，而是将推理的不同阶段分配给专用硬件：

这一设计专门应对智能体 AI 系统日益复杂的需求 —— 推理循环、工具调用、迭代执行带来的异构算力压力，无法靠单一加速集群高效满足。

该方案的核心观点是：推理并非单一负载，而是由多个性能瓶颈完全不同的计算阶段组成。

1. 预填充阶段（Prefill）

预填充负责处理用户提示词、计算注意力矩阵、构建键值缓存。这一阶段高并行、计算密集，GPU 是最高效的选择。

2. 解码阶段（Decode）

预填充之后进入解码阶段，逐一生成 Token。解码与预填充本质不同：它是内存带宽瓶颈型负载，高度依赖注意力缓存的高效访问。

3. 智能体调度：英特尔至强 6 CPU

架构第三部分是用至强 6 CPU承担智能体工具调用与全局编排。

现代智能体 AI 频繁需要外部操作：数据库查询、API 调用、代码执行、工作流管理等。这些任务不适合加速器，更适合通用 CPU 的大内存与成熟软件生态。

架构优势

每种芯片都工作在最优区间：GPU 扛并行计算、RDU 扛内存敏感型 Token 生成、CPU 扛控制与编排。

智能体多步推理会累积解码延迟，专用 RDU 可缓解这一瓶颈。

可根据负载独立扩容 GPU 池、RDU 池、CPU 池。

纯 GPU 方案在解码与编排阶段利用率很低。把这些任务剥离到专用硬件，可减少过度配置 GPU。同时 x86 架构兼容现有企业软件栈，降低集成成本。

这套架构也反映出 AI 负载向智能体推理系统演进的趋势：传统聊天是单次生成，现代智能体需要反复规划、执行、修正。异构架构天然匹配这种交替式计算模式，降低瓶颈、提升响应速度。

总结

SambaNova 与英特尔的这套方案，给出了下一代 AI 基础设施的可行路线：

从单一加速集群走向专用算力编织，用 GPU 做预填充、RDU 做解码、至强 6 做智能体调度，全面提升性能、利用率与扩展性，也预示了未来 AI 数据中心将如何支撑更复杂的推理系统。

新闻中心