计算机架构和设计的发展方向在哪里?
摩尔定律的 125 年历程
处理器行业最著名的概念之一是摩尔定律,该定律指出,芯片上的晶体管数量大约每 18 个月翻一番。在很长一段时间里,这一规律都适用,但如今其增速已大幅放缓,甚至可以说已濒临终结。
本文引用地址:https://www.eepw.com.cn/article/202502/467278.htm晶体管如今已变得极小,我们正逼近物理层面的基本极限。对于传统的硅基中央处理器(CPU)而言,摩尔定律实际上已宣告终结。晶体管尺寸缩小的速度已显著下降,这使得英特尔、超威半导体和台积电等芯片制造商将重心转向先进封装技术、小芯片架构以及 3D 堆叠技术。
插图由 Steve Jurvetson 绘制。请注意图表中,在过去十年里,数据点是如何从通用 CPU 转变为 Nvidia 的 GPU、TPU 以及其他形式的 ASIC 的。
这种发展瓶颈的一个直接后果是,企业开始通过增加核心数量而非提升频率来提高性能。这就是为什么我们看到八核处理器逐渐成为主流,而非 10GHz 的双核芯片。除了增加更多核心,提升性能的空间已极为有限。
量子计算
从一个截然不同的角度来看,量子计算是一个未来有着巨大发展空间的领域。我们不会佯装自己是这方面的专家,而且鉴于这项技术仍在研发之中,实际上也没有太多真正的「专家」。为了破除一些误解,量子计算并不会让你在类似真实场景渲染中获得 1000 帧每秒的速度或诸如此类的效果。就目前而言,量子计算机的主要优势在于,它能够运行一些更先进的算法,而这些算法用传统计算机是无法处理的。
IBM 量子系统一号内部探秘
在传统计算机中,晶体管只有开或关两种状态,分别代表 0 或 1。而在量子计算机中,叠加态是可能的,这意味着量子比特可以同时为 0 和 1。凭借这种新特性,计算机科学家可以开发新的计算方法,并能够解决我们目前因计算能力不足而无法处理的问题。量子计算机并非仅仅是速度更快,而是它们代表了一种新的计算模式,使我们能够解决不同类型的问题。
这项技术距离成为主流应用可能还需要一二十年(具体时间因人而异),那么我们目前在实际的处理器中能看到哪些趋势呢?当下有数十个活跃的研究领域,不过我想谈谈在我看来最具影响力的几个方面。
高性能计算趋势与人工智能
我们正受其影响的一个日益显著的趋势是异构计算。这是一种在单个系统中融入多种不同计算元件的方法。我们大多数人都受益于系统中配备的专用图形处理器(GPU),这就是异构计算的一种体现。
CPU 具有很强的可定制性,能以合理的速度执行各种各样的计算任务。而 GPU 则是专门为执行诸如矩阵乘法之类的图形计算而设计的。它在这方面表现出色,处理这类指令的速度比 CPU 快几个数量级。通过将特定的图形计算任务从 CPU 转移到 GPU,我们可以加快工作负载的处理速度。任何程序员都可以通过调整算法轻松优化软件,但优化硬件则要困难得多。
然而,GPU 并非是加速器应用日益普遍的唯一领域。随着人工智能和机器学习工作负载的增加,我们看到定制化人工智能处理器大量涌现。例如,谷歌的张量处理器和英伟达的张量核心就是专为深度学习计算而设计的。同样,AMD 的 Instinct MI300 和英特尔的 Gaudi 人工智能加速器也在塑造人工智能领域的格局,为训练和推理工作负载提供更专业的性能。
谷歌云 TPU V6e Trillium 3
除了人工智能领域,专用加速器如今在移动计算和云计算中也不可或缺。大多数智能手机都配备了数十个硬件加速器,旨在加速特定任务的处理。这种计算方式被称为「加速器阵列」,其中包括加密处理器、图像处理器、机器学习加速器、视频编解码器、生物识别处理器等。
随着工作负载越来越专业化,硬件设计师在芯片中集成了更多的加速器。像亚马逊网络服务(AWS)这样的云服务提供商,现在为开发者提供现场可编程门阵列(FPGA)实例,以便在云端加速工作负载。传统的计算元件,如中央处理器(CPU)和图形处理器(GPU),内部架构是固定的,而 FPGA(现场可编程门阵列)则具有灵活性——它几乎就像可编程硬件,可以根据特定的计算需求进行配置。
例如,如果你想加速图像识别,就可以在硬件中实现这些算法。如果你想模拟一种新的硬件设计,在实际制造之前,可以先在 FPGA 上进行测试。虽然 FPGA 比 GPU 具有更高的性能和能效,但定制的专用集成电路(ASIC)表现更优。谷歌、特斯拉(Dojo)和 Cerebras 等公司正在开发 ASIC,以优化深度学习和人工智能处理。
高性能计算和芯片架构领域的另一个新兴趋势是向小芯片发展(详见我们的解读文章),我们在本系列的第三部分探讨过这一内容。传统的单片芯片越来越难以实现扩展,这促使 AMD、英特尔和苹果等公司探索模块化设计,即将较小的处理单元(小芯片)组合在一起,使其作为单个处理器发挥作用。AMD 的 Zen 4 和 Zen 5 架构,以及英特尔的 Meteor Lake 和 Foveros 3D 封装技术,都展示了将 CPU 分解为独立的小芯片如何提高性能和效率。
观察一些最新处理器的芯片照片,我们可以发现,CPU 的大部分面积实际上并非核心本身。越来越多的面积被各种不同类型的加速器占据,包括人工智能核心、神经网络处理器(NPU)和数字信号处理器(DSP)。这种转变显著加快了特定工作负载的处理速度,同时还大幅节省了功耗,这在数据中心和移动计算中是一个关键因素。
展示几款常见移动处理器组成结构的芯片照片 图片来源:mostlikelynotarobot
从历史上看,如果你想在一个系统中添加视频处理功能,通常会单独添加一个芯片来实现。但这种方式效率极低。每次信号通过物理线路离开芯片传输时,每个比特都需要消耗大量能量。虽然一焦耳的极小部分看似不多,但在同一芯片内进行通信的效率,可比芯片间通信高出三到四个数量级。这推动了超低功耗芯片的发展,将加速器直接集成到 CPU 和片上系统(SoC)中,以提高能源效率。
然而,加速器并非完美无缺。随着我们添加越来越多的加速器,芯片的灵活性会降低,为了在某些工作负载下实现峰值性能,牺牲了整体通用性能。在某种程度上,整个芯片可能会变成一堆加速器的集合,这会使其作为通用处理器的实用性降低。专用性能和通用性能之间的权衡始终在不断微调。这个持续存在的挑战被称为「专业化差距」,即在使硬件针对特定任务高效运行的同时,保持其对不同工作负载的适应性之间寻求微妙的平衡。
直到几年前,还有人认为我们正处于 GPU/机器学习加速器热潮的顶峰,但现实显然走上了一条截然不同的道路。随着人工智能模型变得越来越大、越来越复杂,且云计算持续扩张,我们很可能会看到更多计算任务被卸载到专用加速器上。
近内存计算与其他内存创新
设计师们寻求提升性能的另一个领域是内存。传统上,读写数据一直是处理器面临的最大瓶颈之一。虽然快速、大容量的缓存能有所帮助,但从随机存取存储器(RAM)或固态硬盘(SSD)访问数据可能需要数万个时钟周期。因此,工程师们通常认为内存访问比计算本身成本更高。
如果处理器要将两个数字相加,它首先需要计算内存地址,确定数据在存储层级中的位置,将其提取到寄存器中,进行计算,计算目标地址,然后将结果写回。对于可能只需要一两个周期就能完成的简单操作来说,这种方式极其低效。
一种受到大量研究的新颖想法是一种名为近内存计算(NMC)的技术。研究人员没有将少量数据从内存中取出,送到快速处理器进行计算,而是将这个思路反转:他们将计算能力直接嵌入到内存控制器、RAM 模块或 SSD 等存储设备中。内存内处理(PIM)作为近内存计算的一个子集,旨在直接在数据所在的位置执行操作,消除了传统内存访问的大部分延迟和能源消耗。
三星、SK 海力士和美光等主要半导体公司已在开发高带宽内存内处理(HBM - PIM,High Bandwidth Memory Processing - In - Memory)解决方案,即在内存堆栈中集成小型计算单元。例如,三星的 HBM - PIM 原型通过减少所需的数据移动量,在人工智能、云计算和高性能计算工作负载方面展现出两位数的性能提升。
另一项新兴的内存创新技术是计算快速链接(Compute Express Link,CXL),这是一种高速、缓存一致性的互连技术,支持内存池化和近内存处理。英特尔、AMD 和英伟达等公司已将基于 CXL 的内存扩展集成到数据中心和人工智能工作负载中,使多个处理器能够高效共享大型内存池。这项技术有助于缓解传统架构中因 CPU 限制而导致的内存访问瓶颈。
近内存计算需要克服的障碍之一是制造工艺的限制。如第三部分所述,硅片制造极其复杂,涉及数十个步骤。这些工艺通常专门用于快速逻辑元件(用于计算)或密集存储元件(用于内存)。如果尝试使用针对计算优化的制造工艺来制造内存芯片,其密度会受到影响。反之,如果使用存储制造工艺来构建处理器,其性能和时序会很差。
3D 集成:芯片设计的下一次演进
解决内存和性能瓶颈的一个潜在方案是 3D 集成。传统处理器采用单层晶体管布局,但这种方式存在局限性。3D 堆叠是将多层晶体管垂直堆叠的过程,以提高密度、带宽并降低延迟。这些堆叠层可以使用不同的制造工艺制造,并通过硅通孔(TSVs)或混合键合技术进行连接。
一个 3D 集成的示例,展示了晶体管层之间的垂直连接。
3D NAND 存储技术是 3D 堆叠早期取得商业成功的案例,而如今高性能处理器也在采用类似理念。AMD 的 3D V - Cache 技术首次应用于锐龙 7 5800X3D,它成功地在传统 CPU 之上堆叠了额外的 L3 缓存层,在游戏及对延迟敏感的应用程序中实现了显著的性能提升。同样,英特尔的 Foveros 封装技术实现了逻辑芯片的堆叠,使得不同的芯片组件能够分开制造,随后再集成到单个封装中。
高带宽内存(HBM)是另一种广泛应用的 3D 堆叠内存形式,多个 DRAM 芯片相互堆叠,并通过硅通孔(TSV)连接。与传统的 DDR 内存相比,HBM 具有更高的带宽和更低的功耗,因此已成为人工智能加速器、GPU 和高性能计算处理器的标准配置。英伟达的 H100 张量核心 GPU 和 AMD 的 Instinct MI300 人工智能加速器都借助 HBM 技术来应对人工智能工作负载所需的海量数据吞吐量。
未来展望
除了物理层面和架构上的变革,半导体行业的一个发展趋势是更加注重安全性。直到最近,处理器的安全性在一定程度上都被视为事后考虑的问题。这就如同互联网、电子邮件以及我们依赖的许多其他系统,在设计时几乎没有考虑到安全性。芯片上现有的任何安全措施通常都是事后添加的,只是为了让我们感觉更安全。
对于处理器而言,这种情况最终给企业带来了麻烦。Spectre 和 Meltdown 漏洞就是推测执行缺陷的早期例子,而最近出现的诸如 Zenbleed、Downfall 和 Hertzbleed 等侧信道攻击表明,现代处理器架构仍然存在重大安全漏洞。因此,处理器制造商如今在设计芯片时会内置安全功能,如机密计算、内存加密和安全隔离区。
随着芯片开发成本持续飙升,半导体行业越来越依赖软件辅助硬件设计以及人工智能辅助验证工具来优化制造过程。
随着传统计算架构逐渐逼近极限,研究人员正在探索全新的计算范式,这些范式有可能重新定义我们处理信息的方式。其中最具潜力的两个方向是神经形态计算和光计算,它们旨在突破传统基于半导体芯片的根本性瓶颈。
神经形态计算是一个新兴领域,它模仿人类大脑处理信息的方式,采用人工神经元和突触网络,而非传统的逻辑门。与此同时,光计算则用光子处理器取代传统的电子电路,利用光而非电来传输和处理信息。由于光子的传播速度比电子快,且受到的阻力更小,光计算机在某些任务上甚至有可能超越最先进的半导体芯片。
评论