新闻中心

EEPW首页 > 智能计算 > 设计应用 > 从头开始的推理加速

从头开始的推理加速

作者: 时间:2025-10-30 来源: 收藏

关键

  • VSORA 开发了一种针对 AI 推理优化的新型架构,在延迟、吞吐量和能效方面实现了接近理论的性能。

  • 该架构通过使用带有海量 SRAM 阵列的统一内存级来解决“内存墙”问题,从而促进更快的数据访问并消除瓶颈。

  • VSORA架构中的每个处理内核都具有1600万个寄存器,并集成了高吞吐量MAC单元,可实现灵活的张量运算和高计算效率。

VSORA AI CHip

VSORA 是一家开创性的高科技公司,设计了一种新颖的架构,专门设计用于满足数据中心和边缘 AI 推理的严格要求。VSORA 的架构在延迟、吞吐量和能效方面具有接近理论的性能,打破了针对训练工作负载优化的传统设计。

VSORA 背后的团队在 IP 业务中有着深厚的根基,花了数年时间设计、测试和微调其架构。该架构现已进入第五代,在过去两年中经过严格验证和基准测试,为硅制造做准备。

打破记忆墙

自 1980 年代后期以来,“内存墙”一直对芯片设计人员提出了挑战。传统架构试图通过分层内存层次结构(例如多层缓存、暂存器和紧密耦合内存)来减轻外部内存和处理单元之间数据移动对性能的影响,每种层次结构都在速度和容量之间进行权衡。

在AI加速中,这种瓶颈变得更加明显。生成式人工智能模型,尤其是那些基于增量转换器的模型,必须不断地重新处理大量的中间状态数据。传统架构在这里挣扎。每个缓存未命中或任何需要访问内存中计算外部的作都会严重降低性能。

VSORA 通过将传统内存层次结构折叠为一个统一的内存阶段来正面解决这个问题:一个行为类似于平面寄存器文件的大型 SRAM 阵列。从处理单元的角度来看,任何寄存器都可以在单个时钟内随时随地访问。这消除了昂贵的数据传输,并消除了阻碍其他设计的瓶颈。

新的 AI 处理范式:每个内核 1600 万个寄存器

VSORA 架构的核心是一个由 16 个处理核心组成的高吞吐量计算图块。每个内核集成了 64K 多维矩阵乘法累加 (MAC) 单元,可从 2D 扩展到任意 N 维张量运算,以及八个高效数字信号处理 (DSP) 内核。数值精度可按每个作动态配置,范围从 8 位定点到 32 位浮点格式。支持密集和稀疏执行模式,运行时可选择的稀疏性独立应用于权重或激活,从而能够对计算效率和推理性能进行细粒度控制。

每个内核都包含前所未有的 1600 万个寄存器,比传统架构中通常的几百到几千个寄存器高出几个数量级。虽然如此庞大的寄存器文件通常会挑战传统的编译器设计,但 VSORA 通过两项架构创新克服了这些挑战:

  1. 原生张量处理: VSORA 的硬件原生支持向量、张量和矩阵运算,无需将它们分解为标量指令。这消除了 CUDA 等 GPU 环境中经常需要的嵌套循环的手动实现,从而提高了计算效率并降低了编程复杂性。

  2. 高级抽象: 开发人员使用熟悉的框架进行高级编程,例如用于 AI 工作负载的 PyTorch 和 ONNX,或用于 DSP 的类似 Matlab 函数,而无需编写低级代码或直接管理寄存器。该抽象层简化了开发、提高了生产力并最大限度地提高了硬件利用率。

基于小芯片的可扩展性

VSORA 的物理实现利用小芯片架构,每个小芯片包含两个 VSORA 计算图块。通过将 VSORA 小芯片与高带宽内存 (HBM) 小芯片堆栈相结合,该架构可实现云和边缘推理场景的高效扩展。

  • 数据中心级推理。旗舰 Jotunn8 配置将 8 个 VSORA 小芯片与 8 个 HBM3e 小芯片配对,在 FP8 密集模式下提供令人印象深刻的 3,200 TFLOPS 计算性能。此配置针对数据中心的大规模推理工作负载进行了优化。

  • 边缘 AI 配置。对于内存要求较低的边缘部署,VSORA 提供:

    • Tyr2:两个 VSORA 小芯片 + 一个 HBM 小芯片 = 800 TFLOPS

    • Tyr4:四个 VSORA 小芯片 + 一个 HBM 小芯片 = 1,600 TFLOPS

这些配置支持高效定制计算和内存资源,以适应边缘应用程序的限制。

电源效率作为副作用

性能提升是显而易见的,但同样引人注目的是处理和能效方面的进步。

使用领先的大型语言模型 (LLM) 跨多个并发工作负载进行广泛的硅前验证,证明处理效率超过 50%,比最先进的基于 GPU 的设计高出一个数量级。

在能源效率方面,佐敦8架构始终提供两倍于同类解决方案的每瓦性能。实际上,其功耗限制在约 500 瓦,而许多竞争加速器的功耗超过 1 千瓦。

总的来说,这些创新以不到一半的功耗产生了数倍的有效性能,与传统实现相比,整体系统级优势为 8-10×。

无 CUDA 编译简化算法映射并加速部署

VSORA 架构经常被忽视的优势之一在于其简化且灵活的软件堆栈。从编译的角度来看,与 CUDA 等传统 GPU 环境相比,流程大大简化。

该过程从定义目标硬件环境的只有几行的最小配置文件开始。该文件使相同的代码库能够在各种硬件配置中执行,无论是在多个内核、小芯片、完整芯片、主板上分配工作负载,还是跨本地或远程云中的节点。唯一的变量是执行速度;功能行为保持不变。这使得本地和本地化云部署无缝且可扩展。

熟悉的流程,没有复杂性

与基于 CUDA 的编译过程不同,VSORA 流程看起来非常基本,没有层层手动调整和复杂性。传统的 GPU 环境通常需要多个痛苦的优化步骤,这些步骤在成功时可以提供强大的性能,但脆弱且耗时。VSORA 通过更加自动化和与硬件无关的编译方法简化了这一点。

该流程首先引入标准 AI 输入,例如 PyTorch 中定义的模型。这些由 VSORA 专有的图形编译器处理,该编译器会自动执行基本转换,例如层重新排序或切片以实现最佳执行。它提取权重和模型结构,然后输出中间 C++ 表示。

然后,此 C++ 代码被输入到基于 LLVM 的后端,该后端识别代码的计算密集型部分并将它们映射到 VSORA 架构。在此阶段,系统变得硬件感知,将计算作分配给适当的配置——无论是单个 VSORA 模块、TYR4 边缘设备、完整的 Jotunn8 数据中心加速器、服务器、机架,甚至是不同位置的多个机架。

开发者的隐形加速

从开发人员的角度来看,VSORA 加速器是看不见的。代码的编写就像它针对主处理器一样。在编译过程中,编译流会识别最适合加速的代码段,并透明地处理转换和映射到 VSORA 硬件。这大大降低了采用的门槛,不需要低级寄存器作或专门的编程知识。

VSORA 的指令集是高级和直观的,继承了其起源于数字信号处理的丰富功能。该架构支持 FP8 和 FP16 等 AI 特定格式,以及 FP16 算术等传统 DSP 运算,所有这些都按层自动处理。模式之间的切换是即时的,不需要人工干预。

独立于流水线的执行和智能数据保留

一个关键的架构优势是管道独立性,即能够根据工作负载需求动态插入或删除管道阶段。这为系统提供了在数据流中“展望前后”的独特能力,确定必须保留哪些信息以供重用。因此,数据流量被最小化,内存访问模式得到优化,以实现最佳性能和效率,达到传统 AI 或 DSP 系统无法达到的水平。

内置功能安全

为了支持自动驾驶等关键任务应用,VSORA 在架构级别集成了功能安全功能。内核可以配置为在锁步模式或冗余配置下运行,从而符合严格的安全性和可靠性要求。

结论

VSORA 并不是针对现代推理需求改造旧设计,而是从头开始构建。VSORA 采用消除传统瓶颈的内存架构、专为张量运算量身定制的计算单元以及无与伦比的能效,无论是在云端还是在边缘,都为 AI 推理树立了新标准。



关键词: 推理加速

评论


技术专区

关闭