新闻中心

EEPW首页 > 嵌入式系统 > 业界动态 > 沐露晨曦之博大“芯”怀所望

沐露晨曦之博大“芯”怀所望

作者:郑小龙 (《电子产品世界》编委)时间:2021-06-16来源:电子产品世界收藏


本文引用地址:http://www.eepw.com.cn/article/202106/426326.htm

1   智能化不断催生智慧的芯

移动互联网及云计算技术的迅猛发展,使得算力对人们生活的方方面面产生深远的影响,并且与人均GDP 具有高度相关性,因此,算力基础设施在“新基建”中发挥着举足轻重的作用,而算力提供者也成为不断推动数字经济向前发展的核心引擎。可提供强大算力的是性能卓越的高端处理器,所面向的是越来越复杂的边缘计算。根据Gartner 分析,过去5 年来,全球边缘计算复合增长率达到87.4%,2020 年市场规模超过424亿美元。然而,高端处理器芯片由少数国际厂商垄断的格局在行业内由来已久,不过这个坚冰正在融化,燧原科技AI 云端芯片引发星火燎原[1],在通用高端处理器方面又将有谁带来曙光?在上海张江的腾飞科技楼,通过与沐曦集成电路有限公司创始人、CEO 陈维良交流,我看到了打造全球一流国产 芯片的希望所在。

如图1 所示,着眼于信息技术产业链的结构,可以看到所需的基础是芯片层,计算芯片对算力起着决定性作用,其中包括两种类型,即中央处理器CPU 和图形处理器。CPU 作为计算机时代的核心引擎独领风骚数十年,始终是算力的主要承担者,然而,后来至上的 以其强大并行计算能力,将计算性能和效率提到更高的水平,并对各种新算法具有很强的适应性。GPU 所具有的独特优势可以同时满足传统高性能计算和新型AI 计算的需求,因而成为最重要的算力来源。

1623812965221484.png

图1 信息技术产业链结构

主流高端GPU 分为针对通用算力的通用GPU(即General Purpose GPU,)和针对游戏显示的传统GPU。如图2 所示,当前全球高性能GPU 市场被少数几家国外公司垄断,使得中国互联网和物联网的大数据基础设施受控于人,凸显出国家安全及国计民生存在巨大不可控风险,因此,核心算力芯片国产替代势在必行。高性能GPU 的研发技术门槛非常高,具有长期GPU 核心技术积累的全建制人才队伍才有可能胜任。为此,作为新崛起的集成电路新生力量,沐曦肩负起重任,致力于以中国人智慧创造出满足中国智能化社会需要的先进GPU 芯片,而解决困扰我国高性能GPU 供应链安全的问题,为算力经济提供强有力的支撑。

image.png

图2 主流的高端GPU及其所占据市场

2   异构化成就超酷的芯

作为行业资深的高端处理器设计专家,陈维良谈到,要改变以往以CPU 作为算力核心的手段,就是要采用“异构”体系,就是CPU 加上比其能效更高的计算单元。异构计算的兴起标志着“摩尔定律”对于高性能计算芯片已不再完全适用,一方面,CPU 处理器性能再无法按照“摩尔定律”增长;另一方面,数据增长对计算性能要求超过了按“摩尔定律”增长的速度,所以只能由异构计算提升算力,以此满足日益增长的海量数据计算需求。其主要原因在于以数据计算为驱动力的同构CPU难以适应以高清视频和影像、复杂多相流模型、海量平行数据计算、实时数据处理,以及其他新兴高复杂度算法的需要,而GPU 的突出优势显而易见。

着眼于图3 所示的处理器内部架构,各类CPU 遵循的都是冯诺依曼架构,按照存储程序顺序执行,更擅长于逻辑控制,而在大规模并行计算能力上受到极大限制。GPU 则采用数量众多的并行计算单元,非常适合处理大量数据计算,不仅可以在图形、图像处理领域大显身手,还被用于科学计算、密码破解、数值分析及海量数据处理、金融分析等需要大规模并行计算的领域。GPU 的优化机理不再局限于延迟性能,而是基于吞吐能力,通过指令集从物理底层直接支持软件可编程。


1623813126650562.png

图3 GPU优于CPU的算力提升内部架构

当今世界最先进的超级计算机(HPC)多数已经转向基于GPU 的异构体系,如2019 年排名第一的HPC(Summit),95% 算力由GPU 提供。根据算法的不同,GPU 的计算速度可以比CPU 快10 倍到100 倍以上。将来的数据中心和大数据处理也越来越依赖基于GPU 的异构算力来支撑。

3   新时代召唤博大的芯

对于国产化GPU 在解决AI 算力方面业已取得的巨大进展陈维良颇为振奋,他表示,这些进展包括两个方面,其一主要侧重于支持训练或推理类的AI 加速;其二是沐曦正在开发的GPU 芯片,专注于需要更通用的强大算力的科学计算,既支持AI 处理,还支持包括“计算物理”、“计算化学”等与计算紧密结合的学科,使计算成为常规手段,同时满足与工业相关的算力需求,涵盖各种设计和仿真等。当今AI 属于大框架下深度学习的神经网络,相关算子可以预见,即便层数增加,网络架构变复杂,仍基于卷积运算方式。通用计算则种类极其繁杂,所需的算子各有千秋,因此通用异构GPU 的概念将从图形处理器(Graphics Processing Unit)超越而成为宏大处理器(Grand Processing Unit)。

GPU 所追求的就是超高性能,在运算指标上往往采用FLOPS 单位,即每秒浮点运算次数,其“单指令多数据(SIMD)”类型指令集利用数据级并行方式,执行一个指令即可进行多个同时发生的计算。其单位已经从GFLOPS 的十亿级别上升到TFLOPS 的万亿级别,业界目前最高水平超过300 多个TFLOPS,而下一代将翻倍,这就成为国际和国产GPU 竞相期待达到的目标。

超高性能必然使功耗成为一个焦点问题,目前最高端GPU 可达到(300~500)W,在芯片及应用中对信号传输带宽和物理架构设计都要通盘考虑。存储器配合无疑是影响GPU 性能的最重要单元,内部可以有多级的上百兆SRAM,而外部需要配规模巨大的高速DRAM。曾经作为图形处理器的GPU 有专用高速显存GDDR 支持,并已发展到GDDR6。针对更高端的通用GPU,一种名为HBM(High Bandwidth Memory)的技术将显存由平面扩展转为向上延伸,以实现所占面积相同前提下存储容量及位宽的数倍提升。这种堆叠封装方法采用设计和工艺紧密结合的手段,显存颗粒与GPU核心通过硅片中介层(Silicon Interposer)进行连接,从而获得更低的工作电压和功耗。HBM1.0/HBM2.0 属于2.5D 技术,现阶段已可以大批量生产,未来会实现3D垂直封装。

在全球AI 产业高速变化的大环境下,广泛的行业分布为其应用拓展提供了广阔前景,快速迭代算法推动AI 技术商用带来了无限商机,算法实现的算力基础就是通用GPU 的不断升级换代。打造行业一流的GPU 公司,从而抢占AI 产业发展的制高点,需要在设计理念和创新架构上持续超越。新一代通用GPU 芯片将具有更高度的并行处理能力、更低内存延迟,并实现计算单元和内存间的灵活而丰富的连接,而且在功效和能效管理水平上有更大的提高。

沐浴着AI 新时代曙光,晨曦正在展开算力提供者的视野,以敏锐眼光展望以AI 为代表的未来新潮流。国产新型通用GPU 基础架构的建立必将是一个艰辛的过程,走产学研结合之路,跟进产业成熟之旅,抓住未来通用计算的算力需求,才能实现高性能处理器的落地。GPU 对于通用平台生态系统的建立至关重要,需要完善的IDE 支持,具备软件兼容性,能够衔接和复用针对众多智能算法和机器学习软件的存量应用。面向未来布局,强强联合有利于达到合力的效果,成为我国应对严峻高端技术挑战,紧跟全球AI 日新月异算力增长需求,促进芯片设计和制造工艺能力突破的新兴力量。期待来年宏大通用处理器GPU 脱颖而出。

参考文献:

[1] 郑小龙.决胜AI云端:芯火燎原看燧原[J].电子产品世界,2020(10):11-12.

(本文来源于《电子产品世界》杂志社2021年6月期)



关键词: 202106 GPU GPGPU

评论


相关推荐

技术专区

关闭