Arm Axion领衔谷歌第八代TPU,云端算力全面转向智能体AI
谷歌在 Google Cloud Next 大会上发布第八代 TPU,分为 TPU 8t 与 TPU 8i 两款独立型号,并首次采用自研 Arm Axion CPU 作为整套 TPU 系统的主控处理器。同期,Arm 发布面向服务器端的免费性能分析工具 Performix。三项发布均指向同一行业趋势:云端 AI 工作负载正从单次模型查询,转向持续运行的智能体系统,需要持续编排推理链、调用工具、执行检索任务。
训练与推理首次分拆为独立芯片
从初代到第七代 Ironwood,谷歌 TPU 均采用单一芯片同时承载训练与推理任务。第八代产品打破这一惯例,训练与推理对硬件的核心需求存在本质差异,训练侧重大规模互联下的计算吞吐,推理更看重内存带宽、片上缓存与能效表现,单一芯片无法兼顾两类场景,长期存在性能妥协。
TPU 8t:面向大规模训练的算力架构
TPU 8t 主打大规模预训练与高嵌入负载场景,单芯片搭载 216GB HBM,带宽 6528GB/s,片上 SRAM 128MB,FP4 峰值算力 12.6PFLOPs,超级 Pod 最大可扩展至 9600 颗芯片,采用 3D Torus 架构组网。芯片内置 SparseCore 单元,专项处理嵌入查找时的不规则内存访问,避免主矩阵运算单元因数据依赖出现性能损耗,同时搭载 LLM 解码器引擎,专项加速自回归解码流程。相较上一代 Ironwood,TPU 8t 训练性价比提升 2.7 倍,能效比最高提升 2 倍。

TPU 8t ASIC block diagram.
TPU 8i:针对长上下文推理优化设计
TPU 8i 面向推理与长上下文解码场景,单芯片 HBM 容量提升至 288GB,带宽达 8601GB/s,约为 TPU 8t 的 1.3 倍,片上 SRAM 扩容至 384MB,为上一代产品的三倍,单 Pod 最大规模 1152 颗芯片。片上存储大幅扩容可直接优化长上下文推理性能。产品采用谷歌全新 Boardfly 互联拓扑,专项优化混合专家模型路由的全量通信,压缩网络传输直径,片上搭载集合通信加速引擎,保障互联同步效率。相较上一代产品,TPU 8i 推理性价比提升 80%,能效比最高同样提升 2 倍。

TPU 8i ASIC block diagram.
Axion 首次成为 TPU 全系主控
两款新一代 TPU 均统一采用 Axion 作为主控 CPU,Axion 基于 Arm Neoverse V2 架构,为谷歌自研定制芯片。选用该架构的核心逻辑,与智能体 AI 的负载特性高度契合。智能体系统包含大量 CPU 密集型任务,涵盖数据预处理、工具调用、检索逻辑与多步推理编排调度,这类任务的运行效率,直接决定 TPU 算力的实际利用率。
Axion 在谷歌云的产品布局同步拓展,C4A 虚拟机与全新 C4A Metal 裸金属实例,面向低延迟敏感型 AI 推理场景,N4A 实例覆盖高性价比横向扩展负载,包括网页服务、API 接口与数据管道业务。谷歌同时将 Axion 与全新 GKE 智能体沙箱深度绑定,该沙箱基于 gVisor 与 Kata 容器构建,可保障智能体生成代码的安全运行,在限定延迟内完成临时容器启动、工具调用与容器销毁,谷歌表示 x86 架构难以在高并发场景满足该延迟要求。欧洲旅行平台 Loveholidays 为该方案早期商用客户,在 C4A 实例上运行 PB 级嵌入与推理负载,规避专用加速器的高额成本。
Arm 发布 Performix 工具,适配智能体优化场景
Performix 可直接从 Arm 服务器硬件读取运行计数器、追踪数据与微架构事件,通过预设方案输出结构化分析结果,同时适配工程师人工调试与 AI 智能体自动化调优,输出数据可直接接入自动化优化流程。该工具为 Arm 官方首款覆盖全栈 Neoverse 架构的性能分析工具,兼容下一代 Arm AGI CPU。微软、MongoDB、Redis、SAP 为首批合作厂商。Arm 公布数据显示,2025 年全球头部云厂商采购的 CPU 算力中,Arm 架构产品占比已达 50%。
这三项发布放在一起,呈现的是谷歌对下一阶段云端AI基础设施的整体判断:单芯片通吃的时代结束了,训练与推理需要针对性设计;CPU在智能体系统里不再是配角,编排、工具调用、沙箱执行这些任务对主控处理器提出了新的要求;性能分析工具也需要跟上自动化调优的节奏。Arm架构在这套体系里的角色,已经不只是"省电的替代方案",而是从主控CPU到开发工具链的全栈渗透。JAX、PyTorch和Keras在Ironwood上的代码可以直接移植到第八代,迁移门槛不高,但这套新架构能否在生产环境中兑现其价格性能承诺,仍需时间验证。


评论