沐露晨曦之博大“芯”怀所望

作者：郑小龙（《电子产品世界》编委）时间：2021-06-16来源：电子产品世界收藏

本文引用地址：http://www.eepw.com.cn/article/202106/426326.htm

1 智能化不断催生智慧的芯

移动互联网及云计算技术的迅猛发展，使得算力对人们生活的方方面面产生深远的影响，并且与人均GDP 具有高度相关性，因此，算力基础设施在“新基建”中发挥着举足轻重的作用，而算力提供者也成为不断推动数字经济向前发展的核心引擎。可提供强大算力的是性能卓越的高端处理器，所面向的是越来越复杂的边缘计算。根据Gartner 分析，过去5 年来，全球边缘计算复合增长率达到87.4%，2020 年市场规模超过424亿美元。然而，高端处理器芯片由少数国际厂商垄断的格局在行业内由来已久，不过这个坚冰正在融化，燧原科技AI 云端芯片引发星火燎原^[1]，在通用高端处理器方面又将有谁带来曙光？在上海张江的腾飞科技楼，通过与沐曦集成电路有限公司创始人、CEO 陈维良交流，我看到了打造全球一流国产GPU 芯片的希望所在。

如图1 所示，着眼于信息技术产业链的结构，可以看到所需的基础是芯片层，计算芯片对算力起着决定性作用，其中包括两种类型，即中央处理器CPU 和图形处理器GPU。CPU 作为计算机时代的核心引擎独领风骚数十年，始终是算力的主要承担者，然而，后来至上的GPU 以其强大并行计算能力，将计算性能和效率提到更高的水平，并对各种新算法具有很强的适应性。GPU 所具有的独特优势可以同时满足传统高性能计算和新型AI 计算的需求，因而成为最重要的算力来源。

图1 信息技术产业链结构

主流高端GPU 分为针对通用算力的通用GPU（即General Purpose GPU，GPGPU）和针对游戏显示的传统GPU。如图2 所示，当前全球高性能GPU 市场被少数几家国外公司垄断，使得中国互联网和物联网的大数据基础设施受控于人，凸显出国家安全及国计民生存在巨大不可控风险，因此，核心算力芯片国产替代势在必行。高性能GPU 的研发技术门槛非常高，具有长期GPU 核心技术积累的全建制人才队伍才有可能胜任。为此，作为新崛起的集成电路新生力量，沐曦肩负起重任，致力于以中国人智慧创造出满足中国智能化社会需要的先进GPU 芯片，而解决困扰我国高性能GPU 供应链安全的问题，为算力经济提供强有力的支撑。

图2 主流的高端GPU及其所占据市场

2 异构化成就超酷的芯

作为行业资深的高端处理器设计专家，陈维良谈到，要改变以往以CPU 作为算力核心的手段，就是要采用“异构”体系，就是CPU 加上比其能效更高的计算单元。异构计算的兴起标志着“摩尔定律”对于高性能计算芯片已不再完全适用，一方面，CPU 处理器性能再无法按照“摩尔定律”增长；另一方面，数据增长对计算性能要求超过了按“摩尔定律”增长的速度，所以只能由异构计算提升算力，以此满足日益增长的海量数据计算需求。其主要原因在于以数据计算为驱动力的同构CPU难以适应以高清视频和影像、复杂多相流模型、海量平行数据计算、实时数据处理，以及其他新兴高复杂度算法的需要，而GPU 的突出优势显而易见。

着眼于图3 所示的处理器内部架构，各类CPU 遵循的都是冯诺依曼架构，按照存储程序顺序执行，更擅长于逻辑控制，而在大规模并行计算能力上受到极大限制。GPU 则采用数量众多的并行计算单元，非常适合处理大量数据计算，不仅可以在图形、图像处理领域大显身手，还被用于科学计算、密码破解、数值分析及海量数据处理、金融分析等需要大规模并行计算的领域。GPU 的优化机理不再局限于延迟性能，而是基于吞吐能力，通过指令集从物理底层直接支持软件可编程。

图3 GPU优于CPU的算力提升内部架构

当今世界最先进的超级计算机（HPC）多数已经转向基于GPU 的异构体系，如2019 年排名第一的HPC（Summit），95% 算力由GPU 提供。根据算法的不同，GPU 的计算速度可以比CPU 快10 倍到100 倍以上。将来的数据中心和大数据处理也越来越依赖基于GPU 的异构算力来支撑。

3 新时代召唤博大的芯

对于国产化GPU 在解决AI 算力方面业已取得的巨大进展陈维良颇为振奋，他表示，这些进展包括两个方面，其一主要侧重于支持训练或推理类的AI 加速；其二是沐曦正在开发的GPU 芯片，专注于需要更通用的强大算力的科学计算，既支持AI 处理，还支持包括“计算物理”、“计算化学”等与计算紧密结合的学科，使计算成为常规手段，同时满足与工业相关的算力需求，涵盖各种设计和仿真等。当今AI 属于大框架下深度学习的神经网络，相关算子可以预见，即便层数增加，网络架构变复杂，仍基于卷积运算方式。通用计算则种类极其繁杂，所需的算子各有千秋，因此通用异构GPU 的概念将从图形处理器（Graphics Processing Unit）超越而成为宏大处理器（Grand Processing Unit）。

GPU 所追求的就是超高性能，在运算指标上往往采用FLOPS 单位，即每秒浮点运算次数，其“单指令多数据（SIMD）”类型指令集利用数据级并行方式，执行一个指令即可进行多个同时发生的计算。其单位已经从GFLOPS 的十亿级别上升到TFLOPS 的万亿级别，业界目前最高水平超过300 多个TFLOPS，而下一代将翻倍，这就成为国际和国产GPU 竞相期待达到的目标。

超高性能必然使功耗成为一个焦点问题，目前最高端GPU 可达到（300~500）W，在芯片及应用中对信号传输带宽和物理架构设计都要通盘考虑。存储器配合无疑是影响GPU 性能的最重要单元，内部可以有多级的上百兆SRAM，而外部需要配规模巨大的高速DRAM。曾经作为图形处理器的GPU 有专用高速显存GDDR 支持，并已发展到GDDR6。针对更高端的通用GPU，一种名为HBM（High Bandwidth Memory）的技术将显存由平面扩展转为向上延伸，以实现所占面积相同前提下存储容量及位宽的数倍提升。这种堆叠封装方法采用设计和工艺紧密结合的手段，显存颗粒与GPU核心通过硅片中介层（Silicon Interposer）进行连接，从而获得更低的工作电压和功耗。HBM1.0/HBM2.0 属于2.5D 技术，现阶段已可以大批量生产，未来会实现3D垂直封装。

在全球AI 产业高速变化的大环境下，广泛的行业分布为其应用拓展提供了广阔前景，快速迭代算法推动AI 技术商用带来了无限商机，算法实现的算力基础就是通用GPU 的不断升级换代。打造行业一流的GPU 公司，从而抢占AI 产业发展的制高点，需要在设计理念和创新架构上持续超越。新一代通用GPU 芯片将具有更高度的并行处理能力、更低内存延迟，并实现计算单元和内存间的灵活而丰富的连接，而且在功效和能效管理水平上有更大的提高。

沐浴着AI 新时代曙光，晨曦正在展开算力提供者的视野，以敏锐眼光展望以AI 为代表的未来新潮流。国产新型通用GPU 基础架构的建立必将是一个艰辛的过程，走产学研结合之路，跟进产业成熟之旅，抓住未来通用计算的算力需求，才能实现高性能处理器的落地。GPU 对于通用平台生态系统的建立至关重要，需要完善的IDE 支持，具备软件兼容性，能够衔接和复用针对众多智能算法和机器学习软件的存量应用。面向未来布局，强强联合有利于达到合力的效果，成为我国应对严峻高端技术挑战，紧跟全球AI 日新月异算力增长需求，促进芯片设计和制造工艺能力突破的新兴力量。期待来年宏大通用处理器GPU 脱颖而出。

参考文献：

[1] 郑小龙.决胜AI云端：芯火燎原看燧原[J].电子产品世界,2020(10):11-12.

（本文来源于《电子产品世界》杂志社2021年6月期）