"); //-->
来源:半导体行业观察
我们所要讨论的是拥有 128 核、每核 2×1024 位向量、5.7 GHz、1 TB/秒的 DRAM的庞然大物。有人说我们的数据中心的热余量用完了,这显然是错误的,Tachyum 证明了这一点。在本文中,我们将介绍新设计与旧设计的比较,以及我们可以从 Tachyum 的披露中收集到哪些信息。
与 2018 Prodigy 一样,2022 Prodigy 的目标是极高的时钟速度和高内核数。事实上,这些目标已经被提高了,时钟速度从 4 GHz 提高到 5.7 GHz,内核数从 64 增加到 128。本文中我们将更深入地了解细节。再见捆绑包,你好 Sane ISATachyum 最初试图通过将指令集与底层硬件实现紧密联系来简化 CPU 设计。VLIW 包允许非常简单的解码和映射逻辑。编译器协助调度,它会设置“停止位”来标记可以并行发布的指令组。这种方案表面上类似于 Nvidia 在 Kepler 和后来的 GPU 架构中使用静态调度,并让内核跳过硬件中的依赖检查。
为了保持这种吞吐量,Prodigy 可以从 L1 指令高速缓存中提取每个周期128 字节。考虑到 64 个字节足以包含 8 条指令,这绝对是大材小用。Tachyum 可能选择了更多的获取带宽,以在所占用的分支周围保持高吞吐量。Prodigy 没有大的 L0 BTB,因此与 Zen 3 和 Golden Cove 相比,它可能会在所采用的分支周围遇到更多的指令获取停顿问题。通过一次获取 128B 字节,前端可以在 BTB 延迟丢失一个周期后“赶上”。
ARM 采用了更大的 64 KB L1i 高速缓存,效果极佳,并且 L1i 未命中率低。
英特尔的 Rocket Lake 内核,带有分支预测器存储和其他前端缓存标记。图片来自 Fritzchens Fritz,Clam 注释
AMD 的 Zen 3 内核,带有分支预测器存储和其他标记的前端缓存。图片来自 Fritzchens Fritz,Clam 注释
Zen 2 似乎能够通过在未记录的性能计数器上使用计数屏蔽来跟踪至少 32 个未决的 L2 未命中。
这是对 2018 版本的重大改进,在 2018 版本中,可实现的 L3 带宽和内存将受到其低 MLP 的限制。它与 Zen 3 和 Golden Cove 位于同一个块,但从绝对意义上来说可能会稍逊一筹。
因此,Tachyum 选择了一个非常强大的 DDR5-7200 设置,带有 16 个控制器,总内存总线宽度为 1024 位。这使它的带宽与 Nvidia 的 RTX 3090 GPU 差不多。DDR5-7200 今天还不存在,但 Tachyum 预计只有 AI 和 HPC 客户才需要性能最高的内存设置。这些客户通常会购买整个系统而不是组件,从而允许集成商对可达到 7200 MT/s 的内存模块进行封装。服务器应用程序通常不受带宽限制,并且可以使用速度较慢的 DDR5。
提高仿真性能Tachyum 的 Prodigy 引入了新的 ISA,因此不会像 x86 和 ARM 那样享有强大的软件生态系统。这是一个严重的问题,因为如果世界上最好的芯片不能运行用户需要的软件,它就完全一文不值。为了解决这个问题,Tachyum 正在寻找 QEMU,它可以模拟另一种架构并允许 x86 和 ARM 二进制文件在 Prodigy 上执行。但仅 QEMU 是不够的,因为仿真性能通常很差。例如,我们在 Ampere Altra 上运行 QEMU 下为 x86-64 编译的 CoreMark。
2022 Prodigy 的变化使其成为比 2018 Hot Chips 上展示的版本更具竞争力的架构。Prodigy 不再严重依赖编译器,采用传统的 ISA,并具有不错的硬件重新排序功能,这些是我们对 2018 版本最大的担忧,我们很高兴看到它们得到解决。2018 版本中的其他弱点,如微小的 L1 缓存,也得到了纠正。这给我们留下了一个带有巨大矢量单元的宽内核,以针对高内核数芯片的前所未闻的时钟。
关于 5.7 GHz就个人而言,我怀疑 Prodigy 能否实现其 5.7 GHz 时钟目标。Tachyum 正在采用一些策略来帮助在高时钟下控制功率和面积。我们目前无法确切透露那是什么,但我认为这还不够。将两个 1024 位向量单元推送到这些时钟将是一项令人难以置信的壮举。流水线长度看起来太短了。在2018年, Prodigy 有一个从取指令到执行指令的 9 阶段整型流水线。在2022年 Prodigy 增加了一个用于硬件依赖检查的阶段,使整型流水线达到 10 个阶段。对于以 5.7 GHz 为目标的设计来说,这非常短。作为比较,Agner Fog 指出,在英特尔的 Golden Cove 上,错误预测惩罚(对应于流水线长度)超过 20 个周期。AMD 的优化手册称 Zen 3 的误判惩罚范围为 11-18 个周期,常见情况为 13 个周期。流水线长度与 Prodigy 相似的 CPU 无法达到 5 GHz。Neoverse N1 有 11 级流水线,运行频率不高于 3.3 GHz。AMD 的 Phenom 有 12 个周期的错误预测惩罚,运行频率为 3.7 GHz。
*假设 Golden Cove 在 Sapphire Rapids 中有 2×512 位向量单元
*假设 SPR 使用 DDR5-5200
Server服务器工作负载更复杂。与竞争服务器芯片相比,Prodigy 具有较弱的分支预测器和较低的缓存缓存容量。如果没有高时钟,Prodigy 的单核性能可能难以与之竞争。这不一定是一个大问题——ARM 进入服务器领域表明,即使每核性能没有竞争力,高核数芯片仍有空间(当然它必须足够好用才行)。专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
CoDeSys 2011(北京)技术大会隆重召开
Tencent JDK 国产化CPU架构支持分享
瑞萨开发出微控制器用新型CPU架构