超越传统OOO:高性能RISC-V CPU基于时间、基于切片的方法
关键
高性能 CPU 设计正在从传统的无序 (OOO) 执行架构转向新的基于时间的 OOO 微架构,以解决电源效率低下、复杂性和不灵活的问题。
RISC-V 和开源建模框架的兴起促进了基于时间的调度的采用,克服了以前与专有工具链相关的障碍以及对社区驱动支持的需求。
基于时间的 OOO 为客户带来的好处包括卓越的每瓦性能、可扩展性、简化的验证流程以及针对数据中心、移动、汽车和定制加速器中特定领域应用程序的增强定制。
几十年来,高性能 CPU 设计一直由传统的乱序 (OOO) 执行架构主导。英特尔、Arm 和 AMD 等巨头已将这种方法完善为行业标准——通过日益复杂的调度程序、推测和运行时逻辑来平衡性能和复杂性。然而,随着工作负载在数据中心、移动和汽车领域的多样化,传统 OOO 架构的弱点——功耗低下、复杂性和不灵活——变得越来越明显。
现在,一种新的范式正在出现:基于时间的 OOO 微架构。这种方法以研究和新专利为基础,提供了一种颠覆性的替代方案,可能会使 RISC-V 在与根深蒂固的现有企业相比中具有第一个可防御的高性能优势。在 RISC-V 时代,开放性、可扩展性和生态系统杠杆性是关键的差异化因素,基于时间的 OOO 提供了一条超越传统现有企业的途径。
在 Hot Chips 2025 上,来自 Condor Computing 的 Ty Garibay 和 Shashank Nemawarkar 就该主题发表了演讲。他们详细介绍了其处理器架构(代号:Cuzco),这是一种高性能、兼容 RVA23 的 RISC-V CPU IP,具有基于时间的 OOO 执行和基于切片的微架构。Ty 是公司的总裁兼创始人,Shashank 是高级研究员兼建筑总监。
关键思想:时间是一流的资源
传统的 OOO 处理器依赖于动态解析依赖关系和发出指令的每周期调度程序。这种方法虽然有效,但需要大型、耗电的硬件结构(预留站、唤醒/选择逻辑和动态记分牌跟踪),这些结构在更宽的超标量内核时扩展性很差。
基于时间的 OOO 执行翻转了这种模型。寄存器记分牌跟踪指令的未来“写入时间”,以便下游指令自动知道作数何时准备就绪。时间资源矩阵 (TRM) 记录执行资源(如 ALU、总线、加载/存储队列)的繁忙间隔,这有助于提前预测资源可用性周期。这支持预测调度,其中发出指令时了解作数和资源的确切未来周期。

在实践中,这将指令调度转换为类似于编译器的静态分析,但在硬件中执行,并针对错误预测、缓存未命中和动态延迟进行运行时调整。这导致更少的栅极数、更低的动态功率和更简单的逻辑,同时仍提供高 IPC 性能。


为什么是现在?缩小工具和生态系统差距
基于时间的调度概念在学术研究中并不新鲜,但有几个障碍阻碍了它在工业界的采用:
从历史上看,CPU 设计依赖于专有的封闭工具链和性能建模框架。实现完全不同的调度模型需要深入的编译器和模拟器协同设计——如果没有社区驱动的支持,这几乎是不可能的。RISC-V 的兴起改变了等式。Sparta、Olympia、Spike 和 Dromajo 等开源建模框架为探索新的调度策略提供了可扩展的平台。Condor Computing 贡献了新工具,例如 Fusion Spec Language (FSL),并积极为 Dromajo 和 Spike 增强做出了贡献,以实现精确建模和整个生态系统的采用。传统的 OOO 曾经受益于标准化和惯性,而高性能 RISC-V OOO 现在受益于开源杠杆和社区贡献。基于时间的 OOO 依靠即插即用的比较和改进,而不是使用这些工具的传统 OOO 技术。
Cuzco 基于切片的设计:灵活、高效且可扩展
基于切片的微架构通过将 CPU 分解为模块化、可重复的“切片”来提供可扩展性、效率和灵活性,每个切片都有自己的管道和资源。这种方法避免了单片超标量设计的关键路径瓶颈,从而实现了从低功耗物联网到数据中心工作负载的可预测性能扩展。客户根据其面积/功耗/性能要求选择两个、三个或四个切片,从而实现静态可配置性。它们还可以通过在运行时对切片进行电源门控来实现动态可配置性,从而允许处理器针对低功耗工作负载进行缩减。其结果是更高的每瓦性能、更快的上市时间以及更灵活的 IP 产品,客户可以根据不同的用例进行定制。

客户利益
对于评估可许可 CPU IP 的客户来说,基于时间的 OOO 的吸引力不仅在于架构的优雅,还在于切实的好处:
每瓦性能:IPC 与传统 OOO 相当或更优越
可扩展性:每个集群支持多达 8 个内核,具有私有 L2 和共享 L3 缓存,可提供数据中心级吞吐量,而无需过高的功率预算。
可预测性:与传统的 OOO 设计相比,简化的调度降低了验证复杂性和门数,从而加快了上市时间。
定制:原生 RISC-V ISA 可扩展性与 TRM 驱动的调度相结合,可以更快地部署特定领域的加速器,这对于 AI、网络和汽车用例至关重要。
总结
Cuzco 基于时间的无序执行代表了对 CPU 设计的根本性重新思考。通过消除每个周期调度的低效率,它降低了复杂性,降低了功耗,并实现了更广泛的可扩展性,同时与 RISC-V ISA 和软件生态系统完全兼容。
它是一款兼容 RVA23 的处理器,可在可许可的 CPU IP 中提供每瓦和每 sq.mm 的最佳性能。这不是渐进式的改进,而是一种结构性转变,可以定义 RISC-V 的高性能时代。
Cuzco 的设计具有广泛的适用性:
数据中心:高吞吐量和较低的功耗预算意味着更低的 TCO。
手机和手机:具有竞争力性能的能源效率。
汽车:可预测性和确定性,对于安全工作负载至关重要。
自定义加速器:通过 RISC-V ISA 可扩展性解锁的特定领域优化。









评论