超越传统OOO：高性能RISC-V CPU基于时间、基于切片的方法

作者：时间：2025-09-05 来源：

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

关键

高性能 CPU 设计正在从传统的无序（OOO）执行架构转向新的基于时间的 OOO 微架构，以解决电源效率低下、复杂性和不灵活的问题。
RISC-V 和开源建模框架的兴起促进了基于时间的调度的采用，克服了以前与专有工具链相关的障碍以及对社区驱动支持的需求。
基于时间的 OOO 为客户带来的好处包括卓越的每瓦性能、可扩展性、简化的验证流程以及针对数据中心、移动、汽车和定制加速器中特定领域应用程序的增强定制。

几十年来，高性能 CPU 设计一直由传统的乱序（OOO）执行架构主导。英特尔、Arm 和 AMD 等巨头已将这种方法完善为行业标准——通过日益复杂的调度程序、推测和运行时逻辑来平衡性能和复杂性。然而，随着工作负载在数据中心、移动和汽车领域的多样化，传统 OOO 架构的弱点——功耗低下、复杂性和不灵活——变得越来越明显。

现在，一种新的范式正在出现：基于时间的 OOO 微架构。这种方法以研究和新专利为基础，提供了一种颠覆性的替代方案，可能会使 RISC-V 在与根深蒂固的现有企业相比中具有第一个可防御的高性能优势。在 RISC-V 时代，开放性、可扩展性和生态系统杠杆性是关键的差异化因素，基于时间的 OOO 提供了一条超越传统现有企业的途径。

在 Hot Chips 2025 上，来自 Condor Computing 的 Ty Garibay 和 Shashank Nemawarkar 就该主题发表了演讲。他们详细介绍了其处理器架构（代号：Cuzco），这是一种高性能、兼容 RVA23 的 RISC-V CPU IP，具有基于时间的 OOO 执行和基于切片的微架构。Ty 是公司的总裁兼创始人，Shashank 是高级研究员兼建筑总监。

关键思想：时间是一流的资源

传统的 OOO 处理器依赖于动态解析依赖关系和发出指令的每周期调度程序。这种方法虽然有效，但需要大型、耗电的硬件结构（预留站、唤醒/选择逻辑和动态记分牌跟踪），这些结构在更宽的超标量内核时扩展性很差。

基于时间的 OOO 执行翻转了这种模型。寄存器记分牌跟踪指令的未来“写入时间”，以便下游指令自动知道作数何时准备就绪。时间资源矩阵（TRM）记录执行资源（如 ALU、总线、加载/存储队列）的繁忙间隔，这有助于提前预测资源可用性周期。这支持预测调度，其中发出指令时了解作数和资源的确切未来周期。

Time Resource Matrix (TRM)

在实践中，这将指令调度转换为类似于编译器的静态分析，但在硬件中执行，并针对错误预测、缓存未命中和动态延迟进行运行时调整。这导致更少的栅极数、更低的动态功率和更简单的逻辑，同时仍提供高 IPC 性能。

Cuzco Time Based Microarchitecture

Cuzco Software

为什么是现在？缩小工具和生态系统差距

基于时间的调度概念在学术研究中并不新鲜，但有几个障碍阻碍了它在工业界的采用：

从历史上看，CPU 设计依赖于专有的封闭工具链和性能建模框架。实现完全不同的调度模型需要深入的编译器和模拟器协同设计——如果没有社区驱动的支持，这几乎是不可能的。RISC-V 的兴起改变了等式。Sparta、Olympia、Spike 和 Dromajo 等开源建模框架为探索新的调度策略提供了可扩展的平台。Condor Computing 贡献了新工具，例如 Fusion Spec Language （FSL），并积极为 Dromajo 和 Spike 增强做出了贡献，以实现精确建模和整个生态系统的采用。传统的 OOO 曾经受益于标准化和惯性，而高性能 RISC-V OOO 现在受益于开源杠杆和社区贡献。基于时间的 OOO 依靠即插即用的比较和改进，而不是使用这些工具的传统 OOO 技术。

Cuzco 基于切片的设计：灵活、高效且可扩展

基于切片的微架构通过将 CPU 分解为模块化、可重复的“切片”来提供可扩展性、效率和灵活性，每个切片都有自己的管道和资源。这种方法避免了单片超标量设计的关键路径瓶颈，从而实现了从低功耗物联网到数据中心工作负载的可预测性能扩展。客户根据其面积/功耗/性能要求选择两个、三个或四个切片，从而实现静态可配置性。它们还可以通过在运行时对切片进行电源门控来实现动态可配置性，从而允许处理器针对低功耗工作负载进行缩减。其结果是更高的每瓦性能、更快的上市时间以及更灵活的 IP 产品，客户可以根据不同的用例进行定制。

Slice Based Microarchitecture