Habana携超强AI芯片入局，向CPU、GPU大鳄亮剑

作者：王莹时间：2019-06-21 来源：电子产品世界

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

初创公司以色列Habana Labs从隐身变为高调，近日在京举办新闻发布会，首席商务官Eitan Medina介绍了两款AI芯片及解决方案，分别用于推理和训练，适合数据中心、自动驾驶等应用，竞争目标直指用AI领域最高性能的CPU和英伟达GPU，号称性能同比高三四倍，延迟更低，且扩展性超强，集成度更高。

本文引用地址：https://www.eepw.com.cn/article/201906/401790.htm

照片：Habana首席商务官Eitan Medina

Habana的AI芯片推出周期为9个月，2018年9月宣布推理芯片Goya，2019年6月宣布训练处理器Gaudi。

该公司尽管2016年成立，已有两轮投资，第二轮投资由Intel等参与，现在有约1.2亿美元资金，主要用于招募众多优秀的DSP、处理器人才。公司已有一百余人，大部分为开发人员。公司开始做软件和算法，积累两年后，于2018年9月推出第一代芯片Goya。两代芯片皆采用16 nm工艺，在台积电流片。

1 Goya：高性能的AI推理处理器

Goya有基于PCIe的卡，用于服务器的推理和预测。通过和CPU、英伟达GPU相比，Goya性能有3倍的优势，功耗和延迟也很低，可以实时处理图片。

图片4.png

迄今，Goya仍是市场上最强性能的产品。3片Goya卡相当于8片Tesla（特斯拉）V100 GPU，169个CPU服务器。

图片5.png

那么，为何Habana的芯片性能领先？通常有两种方式可以保证领先，一种是架构，另一种靠工艺。Goya属于前者，依靠架构。首先，不像GPU，Goya是完全针对AI和全可编程设计的，并且有Tensor（张量）处理核心（TPC）。

图片6.png

AI的性能主要体现在两方面：计算能力和延迟。batch size直接影响了处理器性能。在数据中心中，GPU的batch size要定得很大，否则会影响性能。为了实现大的batch size，需要把很大数量的数据读到内存中，这带来了延迟。Goya可以用较小的batch size，甚至一张图片即可，因此延迟低，这特别适合自动驾驶这类实时性强的应用。

推理的一个重要指标是精度。在整形化（quantization）方面，Goya由于很强的算法团队，2018年在国际学报上曾发布了四篇论文。

在生态方面，很多客户过去是在GPU和CPU上做的算法，现在转到Goya也很容易，Habana公司有软件堆栈（SynapseAI），支持客户在不同处理器（GPU、CPU、FPGA等）上的训练，然后在Goya上运行。

很多人不相信Habana这家小公司，但实际上Goya产品非常成熟，有很多客户采用，例如facebook开源了Glow，并在官网上认可了Goya，因为Goya为Glow机器学习编译器实现后端开源。另外，Goya把驱动提供给了Linux，获得了Linux的支持。

图片7.png

尽管现在很多客户在用CPU和GPU，但是正在寻找更好的处理器，因此Goya还可以给客户提供定制化的产品，因此要给客户最大权限的开放。

总之，Goya让客户在CPU和GPU上实现AI的推理和预测工作，可以容易地移植到Goya上。过去90%的推理和预测是在CPU和GPU上做的，现在有了专用的AI推理处理器。

2 Gaudi：处理能力强大4倍的AI训练处理器

Gaudi性能是最新的英伟达GPU的4倍，且在很小的batch size情况下实现的。

图片8.png

支持RDMA是AI训练芯片的下一代发展方向。为此，AI训练处理器的领头羊——英伟达已于2019年3月收购了Habana的老乡——以色列Mellanox公司，以获得RDMA技术，使之可以运行在以太网环境中。Gaudi更进一步，集成了RDMA over Converged Ethernet（即RoCE v2）功能，从而让AI系统能够使用标准以太网扩展至任何规模。不仅如此，Gaudi的独特之处是集成了10个RDMA，而英伟达需要外接一个PCIe switch（如下图）。

图片9.png

Gaudi有芯片、卡（子卡和PCIe卡）及系统方案，通过PCIe，可以做垂直及横向扩展，使性能倍增。例如，Habana推出了一款名为HLS-1的8-Gaudi系统，与英伟达DCX-1（注：英伟达已出DCX-2）比较，基于Gaudi的HLS-1系统在扩展性、总线效率等方面最高的。

图片10.png

应用案例，可以16个Gaudi芯片并用；或通过数据并行化和层级化处理提高处理效率，因此可以建立1千片Gaudi芯片的系统。在AI中，除了数据的并行化处理之外，还有模型的并行化处理，把大模型分成多个小模型，挑战是之间的通讯，由于Gaudi有很多通讯接口，因此保证了通讯带宽。而英伟达GDX-2没有这么强的能力，因为英伟达的通讯接口有限，且采用了私有的协议。而Gaudi采用了内置的RDMA方案，可以灵活扩展，例如2千个芯片连接。因此，可以单机或几百芯片互联，进行大型模型的训练，可谓没有应用的边界。而传统CPU很难超过16个互联。

另外建议客户不要用私有协议互联，而在通用协议下，这样可以在AI生态圈里选择更多的处理器。

图片11.png