新闻中心

EEPW首页 > 智能计算 > 编辑观点 > 数据中心的加速器正小型化、低功耗化

数据中心的加速器正小型化、低功耗化

—— 赛灵思U50的设计和应用考量分析
作者:王莹时间:2019-08-07来源:电子产品世界收藏

1 市场呼唤轻量级的                 虽然不像机器学习推理加速听起来那么热门,却是非常实用的后端加速的服务,能帮助的客户节约大量成本。

本文引用地址:http://www.eepw.com.cn/article/201908/403477.htm

image.png 

      当前,一方面市场需要更小的,另一方面也需要不仅能加速计算,而且还可加速网络和存储,并能兼容第四代PCIe(PCIe Gen 4),具有HBM(高带宽存储器),有高速网络连接等功能。为此,在美国加州圣克拉拉举办“闪存峰会(Flash Memory Summit (FMS) 2019”期间,赛灵思祭出了新一代产品Alveo U50加速器卡,展示了其在高速存储系统加速上的应用。

       为此,赛灵思数据中心业务部产品规划和市场营销总监Jamon Bowen向电子产品世界等媒体介绍了U50的设计与应用考量。

image.png

照片:赛灵思数据中心业务部产品规划和市场营销总监Jamon Bowen

       Alveo U50是小型化和低功耗产品,可谓业界首款可以支持第四代PCIe的轻量级自适应计算加速卡,与此前赛灵思Alveo加速器相比,U50的尺寸只有1/8,功耗只有1/3,但性能依然强大,可大幅加速各种不同的关键计算、网络和存储工作负载而设计。

• 为何U50的功耗能够更低、尺寸更小?

       这主要是通过HBM来实现的,因为该存储器技术不仅仅有高带宽,同时还可以放在芯片之外,所以这是一种非常核心的技术。在赛灵思芯片上,有一个控制器能够和HBM进行对话,通过这种方式不仅可以缩小Alveo的尺寸,而且还能够提升Alveo的性能,所以归根到底就是赛灵思芯片技术的发展,赛灵思又把这种发展应用到了新的U50产品中。

2 计算的未来趋势

       下图是赛灵思的一个合作伙伴开发的存储盒解决方案,前端是以太网,后端是固态硬盘(SSD)。这里加速IP和存储几乎放在了同一个空间里,所以这非常有意思:没有CPU了,而是加速器和它的外围直接连到这个网络上。

       由于未来数据中心的驱动是异构计算,所以没必要和系统连在同一个地方,即执行的处理器和高性能的深度学习、存储和加速等,没必要进行本地连接,可以做异地连接。

image.png

       例如金融领域的应用,采用赛灵思U50,能在很短的时间内实现从获取市场的数据到最后执行交易;与之相比的是CPU,这个时间可能刚刚才能够进行CPU内存的对话。可见U50方案的速度大大提高了,也预示着未来数据中心一种布局的趋势。

       现在Alveo的产品有两种应用,一种是接X86处理器,还有一种是接存储。第二种接存储方案里,也是有一个具体的加速任务,而且另一端也是连着一个服务器,所以U50采用插件式的连接,通过连接服务器来解决其他可能不是通用于FPGA软件方面的问题。    

• U50扩展了Alveo数据中心加速卡组合

      “Alveo U50进一步扩展了Alveo数据中心加速器卡产品组合。”Jamon指出。之前的Alveo U280等主要是计算领域比较强,例如可以利用在一些基因组测序/医学领域;U50在计算方面稍微弱一点,但是它在联网和存储方面会更强一些。

       回顾一下历史,Alveo加速器卡是2018年10月首次推出的,当时推出的Alveo U200 和 Alveo U250,同年11月,赛灵思又推出了U280。这三款产品的定位均是数据中心和AI,用来大幅提升云端和本地数据中心中业界标准服务器的性能。

 image.png

      再回到Alveo U50卡,U50尽管轻量、小型,但是性能毫不逊色。由于采用赛灵思 UltraScale+™架构,率先使用半高半长的外形尺寸和低于75 W的低包络功耗。该卡支持高带宽存储器 (HBM2),每秒100G 网络连接,并支持第四代 PCIe 和 CCIX 互联标准。通过支持标准的 PCIe 服务器插槽和仅相当于现有 Alveo 卡1/3的功耗, Alveo U50大幅扩展了自适应加速技术可以部署的范围,从而为要求严苛的计算、网络与存储工作负载带来了前所未有的高吞吐量与低延时。8GB HBM2 提供了超过 400 Gbps 的数据传输速度, QSFP端口提供了高达100 Gbps的网络连接。此外,高速网络I/O还支持各种前沿应用,如NVMe-oF™解决方案(NVM Express over Fabrics™),解耦计算存储和专业金融服务应用。

3 数据中心为什么要用加速器?

      所有的计算工作负载都是这三个领域:计算、网络和存储。Alveo灵活应变的加速技术也用于数据中心的这三个领域。

 image.png

3.1 为什么要加速?

       现在的总体趋势是越来越多的应用需要领域专用的架构,使得硬件和算法匹配,以达到最佳运行效果或提高运行速度。

       具体地,现在网络上有很多不同的数据,但是这些数据在运行过程中的要求是不一样的。现在的网络可能和下一代网络不一样,和下下一代的网络就更加不同了。所以此时就需要硬件能够跟上这些领域专用架构的要求,同时还要提升它的性能,使得硬件能够发挥其最优的功能。

 image.png

3.2 为何加速器的运行速度能大幅改善?

      若要优化性能,首先要有定制的数据路径,还要有定制的精度。此后,应用才能够非常顺利地进行处理,而无需不断地去进入到一些存储的层级/去经过一些非常复杂的流程,就能够进行直接的处理。赛灵思在这方面能够给硬件加速,可以通过再编程的方式来调整一些设置。

 image.png

3.3 灵活性和高性能

      数据中心客户最大的抱怨是器件编程非常困难,为此,Alveo简化了硬件编程程序。Alveo有一个非常开放的平台和环境。最主要的一些解决方案涵盖的领域包括数据分析、视频与图象处理、机器学习、生命科学和金融计算,可见有非常广泛的客户和伙伴。赛灵思在上面也加入了很多IP和驱动来支持合作伙伴和开发者的有关活动。

3.4 扩大云的覆盖面:延伸至边缘

      对于企业和用户来说,非常重要的是如果他们要部署一项新技术,就必须要了解有关上云的途径,所以赛灵思U50技术不仅仅支持云,还能够支持本地;而且这种覆盖还在不断的扩张。在中国,BAT(百度、阿里巴巴、腾讯)等都越来越多地采用这种灵活的IP。

      而且Alveo的生态系统是希望能够开发一个全堆栈的解决方案,所以自Alveo推出不到一年的时间,现在已经有很多的生态合作伙伴推出了基于Alveo的解决方案,例如自从Alveo于2018年10月推出以来,现已发布的应用已是那时的2倍,而赛灵思培训的开发者已是那时的4倍。

       另外,因为赛灵思的产品是非常商业化的,而且是现成的标准化的产品,包括驱动,所以能够调动整个IT界的积极性,让他们和Alveo的开源框架进行连接。例如用Alveo的产品可以直接使用Kubernetes和docker的产品。

 image.png

      这是因为Alveo是非常标准化的产品,所以在Kubernetes中可以直接有插件,另外开发者也可以把Alveo和docker配合起来使用。如果没有这样一个标准化的产品配置,客户可能需要花费大量的投资才能实现这样一个功能。所以这对于一些超大规模数据中心的应用是非常有必要的,既可以在云端,也可以用Alveo在本地进行加速,而且是一个非常开放式的框架,可以进行全面的加速。

4 U50的应用案例

      主要围绕计算、网络和存储三个方面。

4.1 计算/加速

4.1.1 语音翻译的计算负载

       从Alveo U50和CPU、GPU在语音翻译加速功能的比较来看,Alveo U50最重要的一个实现的特征是它的高吞吐量和低时延的推断性能,对于这个应用来说,这两个特点是非常重要的。因为在这个领域当中,用到的机器学习和之前的神经网络使用的是不一样的,而这正是Alveo U50的优势所在。

 image.png

        如上图,赛灵思的Alveo U50 和英伟达T4 相比,性能提升高达10倍。

        U50能用于很多不同的网络。机器学习的推断还要求更低的时延推断来支持这样的案例,而且要求硬件能够支持这样的推断,还要离数据源非常近。U50的尺寸小,对于需要在同城提供服务数据中心的运行也是非常重要的一个解决方案,所以赛灵思U50的小尺寸非常契合需要边缘计算的用例场景。

4.1.2 数据库分析

       主要是用于商业信息分析的领域。下图是数据库查询加速运行的TPC-H Query5体系,主要是一些商业营销决定的决策查询或者咨询建议。

       很多企业会面临这样的决策:他们有一个很庞大的数据库,里面有很多供应商,有很多的产品,也有很多的销售数据。他们需要每个季度要有这样的决策,需要来了解哪个产品在第一季度例如销售数额有多少,其降价策略推销是否真正有效,所以这是非常重要的一个商业界经常会用到的场景。在这个加速过程当中,会用到很多的标签节点,会列出很多有关的表格,然后进行具体的查询。在每一个节点对带宽的要求都是非常高的,而带宽又是顺利加速的关键节点。

       在这里做了一个比较,采用的是一台没有加速的英特尔最先进的多核处理器XEON系列的产品。结果显示,U50的处理速度提升高达4倍,而且由于U50卡尺寸非常小,可以使用多张卡的式,如果1张卡能够达到4倍数,加2张就是8倍,如果加3张就是12倍。因为它的尺寸非常小,所以可以进行多倍数的加速。

 image.png

4.1.3 金融

        金融界很多地方需要建模,这样才能定合约和证券的价格。通常是有非常大量的数据输入,之后做几百万的模拟,最后得出一个平均值,得到一个结果的范围来确定在最糟糕的情况下,它的风险什么样的。

      在此进行对比,相比英伟达第一版GPU和英特尔的CPU,如下图可见,U50是CPU性能的20倍。另外,U50的成本只有GPU的一半。

 image.png

      U50之所以能够实现这样高效的加速,因为赛灵思一直在开发计算库,尤其是量化的开发者能够在Alveo当中使用这些数据函数进行最优化的编码,同时能够在我们这个平台上完成其他的应用设计,建立这样一个模型。这个对于计算加速来说是非常重要的扩展,尤其能够把所有的数学函数都吸收进来。

4.2 网络案例

• 电子贸易业务:网络中的时延关键型业务

       金融领域是一个完全不同的应用领域,就是要用技术来支持交易。在这方面,在你获得关键市场数据信息,做出计算,然后做出决定之间,这样的时间差对于金融界是至关重要的。所以金融界有从技术到交易的衡量指标,就是看你获得市场数据之后,直到下单完成交易之间需要花费多长时间。

       如果使用赛灵思的U50,就可以在不到500 ns的时间内,完成过程是:首先收到市场数据,然后用综合的C语言来写一个交易逻辑,再对这样的交易逻辑进行执行和回应。

       如果用CPU,第一步首先要从网络上把这个数据放入到界面的接口,然后进行缓存,如果是单向的话,耗时约400 ns。接下来,数据进去之后,数据的运行环境首先要发出信号,说明这个运行环境发生了变化。然后这个网络再把信息进行解码,从用户转变为核心,然后再把它传输给需要执行交易的部分。而且整个过程需要不断持续,才能使交易的逻辑转为核心,然后再给其他有关的各端。而整个过程大概需要10 ms。

      U50在时间上是CPU的20倍——U50所有所需时间对于CPU来说仅仅只够完成将数据进入到CPU内存层级第一步的时间,而时延在这个领域是非常关键的一个决胜因素。

 image.png

       而且赛灵思加速卡对于整个成本是非常固定的。而且这种应用一般是在证券交易所数据中心里,所以U50的小尺寸在这方面拥有非常好的优势,能够顺利接入到这样的数据中心。

       由上例可见,若使用Alveo进行加速,能够在很多网络端口完成应用的加速,而所需的时间往往是CPU刚开始进行对话的时间,所以对于很多的数据中心来说,这是非常重要的。

4.3 存储

4.3.1 计算存储

       计算存储现在越来越重要,而且有这样一个趋势:让计算离存储越来越近。因为现在固态硬盘使存储越来越多地能够实现高吞吐量和低时延,在过去由于存储在这方面存在瓶颈,是不能这样做的。

 image.png

        如上图是一个非常典型的存储工作负载。过去很多字节都需要一系列传输的程序才能进行处理,有非常复杂的流程,例如要去压缩、解压,还要进行数据保护,诸如加密、解密,这里使用的是一个GZIP压缩吞吐量的指标。

       因为每个字节都要经过这样的流程,所以加速的带宽至关重要的。U50的PCIe第四代技术在这方面大放异彩,可以实现相比CPU 20倍的改善。

    4.3.2 整体应用加速

       一个典型例子是Hadoop。如果来看Hadoop的大小,首先看数据,还有查询数据的工作量,它对于带宽来说提出了很高的要求。如果要做高性能的计算,首先这个数据没法去压缩,但是这样的话,基础设施就需要扩大1倍,而且还需要更多的存储和存储带宽。如果是用U50,就可以非常顺利地进行压缩,而且还可以在高带宽的环境下来完成,这样你就没有必要选择到底要进行压缩,还是保留带宽,这两者之间并不是说只能二选一了。因为可以进行压缩,压缩之后,所需的存储空间只有原来的一半,带宽的需求也只有原来的一半。所以有了这样的加速之后,我们看到部署的成本可能只有原来的1/2;而且不仅仅可以进行压缩,同时还可以确保它的性能不会受到影响。

 image.png

图:2个双CPU服务器vs搭载两个Alveo U50的Alveo服务器

       现在看到越来越多的使用单插头的场景,一个非常好的组合是AMD处理器再加上赛灵思的加速器,来取代CPU双插头的组合。

       那么一个问题是:压缩的过程和加速好像是矛盾的方式,压缩数据的流程是赛灵思自己的技术吗?Jamon解释道,上图左边这个压缩仅仅是CPU完成的,在右边这个压缩是把数据发送到Alveo内部,然后再发到存储的设备当中,所以这是由硬件加速的压缩。所以赛灵思确实是在用Alveo U50做GZIP这样压缩的加速。二者相较,有一个是可以通过压缩来大大提高吞吐量,另一个根本无法进行压缩,因为速度太慢了。所以如果没有Alveo U50进行加速,就必须要在成本和吞吐量之间做出选择,要么不能去压缩,但是如果有了Alveo U50,就能够进行非常迅速的加速。

5 与友商相比的优势:灵活应变

       异构计算应该是数据中心的未来,很多公司也在拥抱加速架构为核心的解决方案,U50不仅仅能够提供硬件的加速,而且它还是灵活应变的——因为Alveo不仅仅能做到硬件的加速,而且还是可以编程,可以重新配置。例如GZIP压缩,但是压缩的技术也是日新月异的,发展很快,例如有ZS、ZT、LZ,还有超大规模客户发布一些新的压缩算法,还有微软2019年发布了Zipline开放标准的压缩算法。赛灵思的优势是能够在硬件层面上进行加速,还能够在硬件层面上实现可编程,如果出现了一些新标准的变化,其他竞争对手都是做不到的。一旦有了新的标准计算算法迭代之后,赛灵思就能够充分利用 FPGA 的灵活性,在我们平台上迅速部署。

 6 小结 

       Alveo U50是Alveo产品系列一个非常重要的扩展,也是首款专门为计算、网络和存储打造的自适应加速器,能够面向任何服务器,为任何云打造。

       在性能上与TCO(总拥有成本)方面,U50可以将吞吐量、时延和功耗效率改善很多倍,也是首款用PCIe Gen 4支持HBM2与100 Gbps网络端口的产品。

      此外,赛灵思有不断壮大的生态和平台。



关键词: 数据中心 加速器

评论


相关推荐

技术专区

关闭