GPU芯片新技术出现，中国厂商值得借鉴

作者：时间：2023-11-13来源：半导体产业纵横收藏

11 月 6 日，在创业三年，即将进入下一个三年之际，摩尔线程创始人兼 CEO 张建中给公司全体员工发了一封信。信中提到了很多关于过去三年研发工作的总结，以及未来发展规划的内容，不过，这封信的核心内容是：摩尔线程将进行一次岗位优化，也就是裁员。

本文引用地址：http://www.eepw.com.cn/article/202311/452786.htm

对于这家中国本土新崛起的 GPU 芯片设计公司来说，最近几年的形势，使得摆在他面前的机遇和挑战都显得很凸出。

不仅摩尔线程，壁仞科技和沐曦集成电路也是近几年中国本土表现非常凸出的 GPU 芯片创业公司，再加上老牌的景嘉微，以及其它几家相关企业，把中国本土 GPU 技术和芯片产品市场热度推向了一个新高度，在主动与被动之间，取得了明显多于、快于 2018 年之前的成绩。

然而，在市场和美国政策的双重压力下，特别是近期美国政府将壁仞科技和摩尔线程列入了实体清单，使得它们设计出的芯片难以拿到先进制程产能，再加上市场寒冬，以及在生态系统方面与英伟达的巨大差距，生存和发展愈加艰难，裁员难以避免。

GPU 及生态系统建设

1999 年 10 月，英伟达发布了 GeForce 256，这是一款基于台积电 220nm 制程工艺、集成了 2300 万个晶体管的图形处理芯片。英伟达把 Graphics Processing Unit 的首字母「GPU「提炼出来，把 GeForce 256 冠以「世界上第一块 GPU」称号，巧妙地定义了 GPU 这个新品类，并占据这个词的用户心智直到今天。凭借先发优势，不仅在芯片端，英伟达在 GPU 生态系统建设方面也是统治者，直到今天，也没有哪家厂商能够动摇它的根基。

GPU 原本是为图像而生的，它把 CPU 从图像显示的苦力活中解放了出来，大量的流水线架构，使得 GPU 非常适合巨量、重复性的工作，自从 GPU 大规模应用以后，CPU 就摆脱了这些原本由它负责的头疼工作，转而去做更擅长的指令判断和控制类的「大脑「型工作。

在发展的很长一段时间内，由 GPU 组成的显卡主要用于大型游戏、CAD 制图和视频剪辑等图像处理工作，后来，随着应用和技术的发展，GPU 又渗透到自动驾驶、医疗影像、金融模型、生物信息等多个领域。如今，GPU 是人工智能（AI），特别是 AI 训练应用领域的明星，火遍全球。

发展了这么多年，GPU 芯片赛道高度垄断，全球 90% 的市场被少数几家大企业占领，在集显市场，英特尔和 AMD 平分天下，在独显赛道，AMD、英伟达二八分成；在 GPGPU（主要用于 AI 等高性能计算）市场，英伟达的市占率高达 90% 以上。

生态系统方面，2006 年，英伟达推出了并行计算平台和编程模型 CUDA，它让 GPU 拥有了解决复杂计算问题的能力，开发者们可以通过 CUDA 平台，更方便地调度底层的 GPU 算力。当前，CUDA 拥有 400 多万开发者，大部分 GPU 和 AI 芯片创业公司的产品也都通过兼容 CUDA 来进入用户端。

为了追赶英伟达，英特尔于 2022 年发布了全新架构的第一款独立显卡，拥有超过一万名软件工程师的英特尔，在显卡发布后的一年里，其显卡驱动更新了 21 次，平均半年更新 10 版。

为了与 CUDA 竞争，AMD 于 2016 年推出了开放的 ROCm 平台，不过，从目前的发展情况来看，ROCm 的市场接受度和应用规模依然与 CUDA 有非常大的差距。

中国 GPU 的发展近况

近些年，中国 GPU 取得了一些突破。

2019-2020 年，中国本土出现了 GPU、AI 芯片创业热潮，壁仞科技、摩尔线程、燧原科技、沐曦集成电路、天数智芯等一批明星企业涌现出来，相关 GPU 芯片新品不断。

2022 年 3 月，摩尔线程公布了首批显卡产品，包括面向电脑和工作站的 MTT S60，以及面向服务器的 MTT S2000。两张显卡都采用了第一代 MUSA 架构（Moore Threads Unified System Architecture，中文名为「苏堤」）。2022 年 11 月，该公司公布了第二批产品，包括面向电脑和工作站的显卡 MTT S80，以及面向服务器的 MTT S3000，这两款产品采用了新一代 MUSA 架构「春晓」，并使用了 PCIe Gen5 插槽。

壁仞科技的高光时刻，是在 2022 年 8 月发布了首款 GPGPU 芯片 BR100，并宣布该产品从 800 多个参选项目中脱颖而出，荣膺当年世界人工智能大会最高奖项 SAIL 奖。据悉，BR100 峰值算力达到国际厂商在售旗舰产品 3 倍以上，创下国内互连带宽纪录，还是国内率先采用 Chiplet 技术、率先采用 PCIe 5.0、率先支持 CXL 互连协议的 GPGPU 芯片。

今年 6 月，沐曦集成电路宣布完成 AI 训练 GPU MXC500 的功能测算工作，同时，MXMACA 2.0 计算平台基础测试完成。

据悉，MXC500 是沐曦对标英伟达 A100/A800 的芯片，目标算力为 FP32 15 TFLOPS（A100 为 FP32 19.5 TFLOPS），兼容 CUDA，预计今年底规模出货。

以上这些厂商推出的产品，目标都是要夺取英伟达和 AMD 在中国本土的市场份额。然而，英伟达经历了 30 年的持续积累，才取得今天的成绩，中国本土 GPU 厂商不可能在 5 年左右的时间内研发出具有同样水平和市场影响力的产品。不过，如果中国 GPU 芯片能达到英伟达 H100 芯片性能的 70%，也是很有意义的。接下来的重点工作就是本土 GPU 生态系统建设。

中国 GPU 生态系统建设

比提升芯片性能更难的，是构建生态系统。英伟达不仅强在芯片硬件，更强在其软件生态 CUDA，其 GPU+CUDA，就像英特尔和微软构建的 Wintel，后来者要想再创建一整套软硬件系统的成本非常高，而且非常难，不仅仅是钱的问题。假设投入和英伟达相当的人才和资源，以 3 倍的发展速度追赶，至少需要 10 年时间才能接近英伟达的水平。

以摩尔线程为例，理论上讲，无论是 GPGPU，还是桌面级应用，该公司的产品性能已经达到了英伟达中端产品水准，但实际表现并非如此。以 MTT S80 为例，从游戏爱好者的测试结果来看，其早期实际性能接近 GTX1050Ti，今年更新驱动后，性能可以媲美 GTX1650，能流畅运行英雄联盟等网游，也可以跑 4K 游戏，但与 RTX3060 相比，依然有很大差距。

MTT S80 强劲的硬件却难以发挥理论性能，关键问题就是软件适配，摩尔线程差的就是底层技术和驱动经验的积累。据悉，MUSA 架构源于 IMG 的 PowerVR，这也从一个侧面体现出该公司在 GPU IP 方面缺乏核心技术。

通过购买 IP 研发 GPU 是中国本土大多数厂商的选择，包括芯动、壁仞科技等企业都是如此。该模式能够以最小代价设计出商用产品，但是，芯片生产出来以后，软硬件打磨就要考验厂家的技术实力了，而这些软实力是没有地方购买的。

中国老牌 GPU 芯片企业景嘉微曾表示，做 GPU，三分靠硬件，七分靠软件。英伟达在初期的产品性能也不好，还一度被 ATI 压制，后期的成功除了全新架构的助攻，驱动的打磨功不可没。

中国本土这些 GPU 芯片新星大多都想兼容英伟达的 CUDA，但是，在驱动软件的适配上还差强人意，例如，早期的 MTT S80 只支持 DX9 游戏，虽然现在历经 9 次版本驱动更新后，能支持更高的 DX11 游戏，但是其性能表现远未达到硬件实际水平。

正是看到了差距，中国本土 GPU 厂商一直在生态系统建设方面增加投入。例如，今年，弘信电子与摩尔线程和燧原科技分别签署了《战略合作框架协议》，以打造人工智能软硬件基础设施。

目前，摩尔线程已经将大部分资源分配给软件，占比达到 70%，重点关注元宇宙和 AI。沐曦已与服务器 OEM、大数据中心、互联网、运营商等行业客户建立了合作关系，并与众多知名高校和研究机构开展产学研合作，快速推进产业上下游生态系统建设。

GPU 的新动向

全球范围内，在已有基础上，GPU 技术及其生态依然在向前发展，目前来看，有两点很值得关注：一是 GPU 与 CPU 的融合，二是 RISC-V 的融入。

GPU 比 CPU 简单得多；它可以更快地执行简单的指令，执行是并行进行的，这也是 GPU 与 CPU 的最大不同之处。然而，并非所有软件都可以轻松地并行化执行。CUDA 生态系统旨在提供工具来构建可以利用 GPU 进行并行计算的软件应用程序，但是，大多数软件应用程序仍然需要 CPU 才能运行。

基于 CPU 的应用程序不仅更容易开发，而且大多已经构建完成。很难想象哪些公司会花费时间和精力将已经在 CPU 上运行的东西移植到 GPU 上。

目前，AMD、英特尔和英伟达都在 CPU-GPU 融合技术方面下重注。

2023 上半年，AMD 首席技术官 Mark Papermaster 表示，该公司将在 2024 年推出 CPU-GPU 芯片，它将基于第 4 代 Epyc 架构的 CPU 内核与基于新一代 CDNA 3 架构的 GPU 结合在一起，也就是 AMD 近些年一直在宣传的 APU 概念。

英特尔的 CPU-GPU 芯片 Falcon Shores 具有 x86 CPU 内核和 Xe GPU 内核，成熟产品将在 2025 年量产。

下面看一下 RISC-V 与 GPU 的融合。

最近，Ventana Micro Systems 与 Imagination Technologies 合作推出了基于 RISC-V 的 CPU-GPU 平台。

Ventana 计划推出一个仿真模型，展示其基于 RISV-C 的 CPU 如何与 Imagination 开发的 GPU 协同工作。这次演示将结合 Ventana 的新 CPU 产品 Veyron V2。据悉，V2 将对 RISC-V 指令集架构进行增强，使其能与 x86 和 Arm 同台竞技。

目前来看，Imagination 与 Ventana 的合作项目距离产品量产和规模化应用还有较大距离，但是，RISC-V CPU 和 GPU IP 融合的可用性，可能会带来针对不同客户端应用的新一波 RISC-V 平台开发热潮。

从目前的市场和应用需求来看，RISC-V 与 GPU 的结合是有基础的。

在一些垂直市场，例如 5G/6G 通信、AI 推理和视频处理等，传统 CPU 已经无法满足这些应用的计算量需求，需要新计算方法的出现。对于图像处理来说，内存访问瓶颈问题已经非常凸出，需要新的解决方案，甚至是新的计算架构，看看市场上最近发布的一些人工智能和 RISC-V 产品，会发现一些公司发布的处理器里面有新的 ISA，它们已经开始将 RISC-V 和 GPU IP 融合使用了。

通过指令扩展将 GPU 功能添加到 RISC-V 架构中很有创意，然而，二者融合这条路并不好走，最大的拦路虎就是架构融合，以及生态系统建设，需要的时间可能很长。要将 RISC-V 指令集改编成非常适合 GPU 任务的指令集，需要大量投资来定义 ISA 扩展，构建高度复杂的微架构，并对开源工具进行重大调整。如果将 RISC-V 指令集融入 GPU 架构，几乎所有 RISC-V 的固有优势都将被定制化稀释掉，另外，RISC-V 核心 ISA 功能会限制 GPU 在特定领域的可用性。

虽然，有诸多挑战，但鉴于 RISC-V 迅猛的发展势头，以及其在高性能计算领域的渗透决心，与同样在高性能计算应用领域如鱼得水的 GPU 融合，前景还是很值得期待的。

不仅是国际巨头，中国本土 GPU 厂商，特别是更具前瞻性的几家创业公司，在发展 GPU 方面也需要研发更具竞争力的技术和产品，而在当下美国政府推出各种限制政策的大环境下，中国本土 GPU 芯片技术和生态系统建设可以拓展更多思路，将更多先进的技术和理念融入相关产品。在本土企业客户给出更多采用和试错空间的情况下，中国芯片企业或许可以加快追赶国际先进 GPU 的步伐。