新闻中心

EEPW首页 > 智能计算 > 业界动态 > ARM Axion 处理器加持谷歌第八代 TPU,云端全面转向智能体 AI 架构

ARM Axion 处理器加持谷歌第八代 TPU,云端全面转向智能体 AI 架构

作者: 时间:2026-05-11 来源:EEPW编译 收藏

谷歌云将 TPU 产品线拆分为训练版与推理版,全新第八代 TPU 全系采用基于 Arm Neoverse 架构的Axion CPU作为宿主机主控处理器。与此同时,Arm 正式推出免费性能分析工具 Performix,面向日益壮大的 Arm 生态开发者群体。

在谷歌云 Next 大会上,谷歌正式发布第八代 TPU,分为 训练型与 推理型两大版本,并大规模采用 处理器作为全新算力集群的主控主机 CPU。

谷歌云第八代 TPU 产品布局

谷歌第八代 TPU 划分出两套独立系统: 面向 AI 预训练场景, 专注推理与任务决策场景。

与此同时,Arm 发布了Performix免费性能分析工具,专为 Arm 架构服务器打造。两大动作都围绕行业核心趋势:智能体 AI。这类应用不再是单次模型查询,而是可以自主完成连续推理、工具调用、信息检索的链式任务调度。

:同代双架构分工

以往 TPU 采用单颗芯片兼顾训练与推理,第八代首次将训练、推理硬件架构彻底拆分。

TPU 8t

面向大规模预训练、高嵌入参数负载场景,超算集群最高可扩容至 9600 颗芯片,采用 3D 环网互联架构。单芯片配置 216GB HBM 显存,带宽高达 6528GB/s,片上 SRAM 容量 128MB,峰值 FP4 算力达 12.6 PFLOPs。内置专用稀疏核 SparseCore,负责处理嵌入检索带来的不规则内存访问,避免矩阵运算单元因数据等待卡顿;新增 LLM 解码引擎,专门加速自回归大模型推理流程。

image.png 

TPU 8t ASIC 架构框图

TPU 8i

定位推理与智能体任务推理,单集群最高支持 1152 颗芯片,采用谷歌自研Boardfly新型互联拓扑,专门降低专家混合模型(MoE)全互联通信的网络直径延迟。搭载 288GB HBM 显存,带宽 8601GB/s,约为 TPU 8t 的 1.3 倍;片上 SRAM 384MB,达到上一代产品三倍。超大片上缓存非常适配超长上下文解码场景,可将 KV 缓存驻留在片内,无需频繁溢出到 HBM 显存。集成全新集合通信加速引擎,优化 Boardfly 架构下多芯片同步通信效率。

image.png 

TPU 8i ASIC 架构框图

谷歌官方数据显示:相比第七代 Ironwood TPU,TPU 8t 训练性价比提升 2.7 倍,TPU 8i 推理性价比提升 80%;两代新品能效比均最高提升至原来 2 倍。原有运行在 Ironwood 上的 JAX、PyTorch、Keras 代码可无缝迁移适配新一代 TPU。

整套系统的核心变化,是全面采用 Arm 架构作为宿主机 CPU。TPU 8t 与 TPU 8i 首次统一搭载基于 架构的谷歌定制 Axion CPU。对于智能体 AI 负载而言,数据预处理、工具调用、任务编排等 CPU 侧任务,直接决定 AI 加速单元的有效利用率,Axion 的引入补齐了全栈协同能力。

Axion 处理器在谷歌云的全面落地

除作为 TPU 宿主机外,Axion 正在全面覆盖谷歌云通用计算实例:C4A 虚拟机与 C4A Metal 裸金属实例,主打低时延 AI 推理通用算力场景;最新 N4A 实例面向成本敏感型规模化业务,适配网页服务、API 接口、数据流水线等场景。

image.png 

C4A 谷歌云首款基于 Axion 架构的处理器平台

谷歌还将 Axion 与全新GKE 智能体沙箱深度绑定,基于 gVisor 和 Kata 容器技术,安全运行 AI 智能体生成的不可信代码。沙箱支持智能体快速创建临时容器、执行工具调用并即时销毁,在高并发场景下可满足严格时延要求,性能优于传统 x86 架构主机。

欧洲旅游平台 Loveholidays 已率先落地商用,在 C4A 实例上运行 PB 级嵌入计算与 AI 推理业务,相比专用加速器方案大幅降低成本。

面向智能体全栈的性能调优

Arm 同步推出Performix性能分析工具,免费适配 Arm 架构服务器,深度融入智能体 AI 开发工作流。

工具可直接从 Arm 硬件底层采集运行数据,包含性能计数器、程序追踪、微架构事件等信息;通过预设分析模板输出结构化数据,既方便工程师人工排查,也可直接供给 AI 智能体自动分析。输出格式支持接入自动化性能调优闭环,实现由 AI 辅助完成硬件与业务负载的智能优化。

对于自研或采购 Arm 服务器平台的硬件设计厂商,Performix 是首款覆盖完整 Neoverse 全栈的官方性能分析工具,适配云端芯片以及下一代 Arm AGI 智能处理器。

微软、MongoDB、Redis、SAP 已成为首批合作生态伙伴。Arm 透露,2025 年全球顶级云厂商采购的 CPU 算力中,已有 50% 采用 Arm 架构。


评论


相关推荐

技术专区

关闭