新闻中心

EEPW首页 > 智能计算 > 编辑观点 > Habana携超强AI芯片入局,向CPU、GPU大鳄亮剑

Habana携超强AI芯片入局,向CPU、GPU大鳄亮剑

作者:王莹时间:2019-06-21来源:电子产品世界收藏

      初创公司以色列Habana Labs从隐身变为高调,近日在京举办新闻发布会,首席商务官Eitan Medina介绍了两款芯片及解决方案,分别用于推理和训练,适合、自动驾驶等应用,竞争目标直指用领域最高性能的CPU和英伟达GPU,号称性能同比高三四倍,延迟更低,且扩展性超强,集成度更高。

本文引用地址:http://www.eepw.com.cn/article/201906/401790.htm

1561098898320916.png

照片:Habana首席商务官Eitan Medina

      Habana的芯片推出周期为9个月,2018年9月宣布推理芯片Goya,2019年6月宣布训练处理器Gaudi。

      该公司尽管2016年成立,已有两轮投资,第二轮投资由Intel等参与,现在有约1.2亿美元资金,主要用于招募众多优秀的DSP、处理器人才。公司已有一百余人,大部分为开发人员。公司开始做软件和算法,积累两年后,于2018年9月推出第一代芯片Goya。两代芯片皆采用16 nm工艺,在台积电流片。

1561098995761489.png

      1  Goya:高性能的AI推理处理器

      Goya有基于PCIe的卡,用于服务器的推理和预测。通过和CPU、英伟达GPU相比,Goya性能有3倍的优势,功耗和延迟也很低,可以实时处理图片。

1561099073705302.png

图片4.png

      迄今,Goya仍是市场上最强性能的产品。3片Goya卡相当于8片Tesla(特斯拉)V100 GPU,169个CPU服务器。

图片5.png

      那么,为何Habana的芯片性能领先?通常有两种方式可以保证领先,一种是架构,另一种靠工艺。Goya属于前者,依靠架构。首先,不像GPU,Goya是完全针对AI和全可编程设计的,并且有Tensor(张量)处理核心(TPC)。

图片6.png

      AI的性能主要体现在两方面:计算能力和延迟。batch size直接影响了处理器性能。在中,GPU的batch size要定得很大,否则会影响性能。为了实现大的batch size,需要把很大数量的数据读到内存中,这带来了延迟。Goya可以用较小的batch size,甚至一张图片即可,因此延迟低,这特别适合自动驾驶这类实时性强的应用。

      推理的一个重要指标是精度。在整形化(quantization)方面,Goya由于很强的算法团队,2018年在国际学报上曾发布了四篇论文。

      在生态方面,很多客户过去是在GPU和CPU上做的算法,现在转到Goya也很容易,Habana公司有软件堆栈(SynapseAI),支持客户在不同处理器(GPU、CPU、FPGA等)上的训练,然后在Goya上运行。

      很多人不相信Habana这家小公司,但实际上Goya产品非常成熟,有很多客户采用,例如facebook开源了Glow,并在官网上认可了Goya,因为Goya为Glow机器学习编译器实现后端开源。另外,Goya把驱动提供给了Linux,获得了Linux的支持。

图片7.png

      尽管现在很多客户在用CPU和GPU,但是正在寻找更好的处理器,因此Goya还可以给客户提供定制化的产品,因此要给客户最大权限的开放。

      总之,Goya让客户在CPU和GPU上实现AI的推理和预测工作,可以容易地移植到Goya上。过去90%的推理和预测是在CPU和GPU上做的,现在有了专用的AI推理处理器。

      2  Gaudi:处理能力强大4倍的AI训练处理器

      Gaudi性能是最新的英伟达GPU的4倍,且在很小的batch size情况下实现的。

图片8.png

      支持RDMA是AI训练芯片的下一代发展方向。为此,AI训练处理器的领头羊——英伟达已于2019年3月收购了Habana的老乡——以色列Mellanox公司,以获得RDMA技术,使之可以运行在以太网环境中。Gaudi更进一步,集成了RDMA over Converged Ethernet(即RoCE v2)功能,从而让AI系统能够使用标准以太网扩展至任何规模。不仅如此,Gaudi的独特之处是集成了10个RDMA,而英伟达需要外接一个PCIe switch(如下图)。

图片9.png

      Gaudi有芯片、卡(子卡和PCIe卡)及系统方案,通过PCIe,可以做垂直及横向扩展,使性能倍增。例如,Habana推出了一款名为HLS-1的8-Gaudi系统,与英伟达DCX-1(注:英伟达已出DCX-2)比较,基于Gaudi的HLS-1系统在扩展性、总线效率等方面最高的。

图片10.png

      应用案例,可以16个Gaudi芯片并用;或通过数据并行化和层级化处理提高处理效率,因此可以建立1千片Gaudi芯片的系统。在AI中,除了数据的并行化处理之外,还有模型的并行化处理,把大模型分成多个小模型,挑战是之间的通讯,由于Gaudi有很多通讯接口,因此保证了通讯带宽。而英伟达GDX-2没有这么强的能力,因为英伟达的通讯接口有限,且采用了私有的协议。而Gaudi采用了内置的RDMA方案,可以灵活扩展,例如2千个芯片连接。因此,可以单机或几百芯片互联,进行大型模型的训练,可谓没有应用的边界。而传统CPU很难超过16个互联。

      另外建议客户不要用私有协议互联,而在通用协议下,这样可以在AI生态圈里选择更多的处理器。

图片11.png



关键词: AI 数据中心

评论


相关推荐

技术专区

关闭