新闻中心

EEPW首页 > 智能计算 > 业界动态 > 英特尔:GPU 已过时,Nvidia 的人工智能之路会越来越难

英特尔:GPU 已过时,Nvidia 的人工智能之路会越来越难

作者:时间:2017-04-11来源:雷锋网 收藏

  刚刚上任的英特尔事业部(AIPG)首席技术长 Amir Khosrowshahi 表示,目前所使用 GPU 等级太低了,半导体产业需要构建全新的神经网络架构。

本文引用地址:http://www.eepw.com.cn/article/201704/346422.htm

  在出任这个新职位之前,Khosrowshahi 是 Nervana System(下简称 Nervana) 的联合创始人兼首席技术长,Nervana 于 2016 年 8 月被英特尔收购,但并未对外披露具体的收购金额。 Nervana 利用最先进的技术来使用 GPU,而且还自行研发替代了标准的 汇编程序,从而让 Nervana 能够生成「次优」的架构体系。 在英特尔大力部署战略的大背景下,该公司所能提供的技术迅速成为了发展的核心力量。

  Khosrowshahi 本周四向 ZDNet 透露:「早在 Nervana 成立之初我们就着手研发自己的汇编程序,当时只是为了我们自己的研发需求,不过后来我们发现它要比 官方的库存快两到三倍,所以我们就将其开源了。 」

  Nervana 并不仅仅在软件方面发力,而且还创建了自己的目标向神经网络训练。

  他说道:「神经网络是预先设定好操作的系列整合。 它并不像人类和系统之间的互动,而是被描述为数据流的系列指令集。 」

  Khosrowshahi 表示,在执行图形渲染过程中辅助图形处理单元的部分功能是没有必要的,比如大容量暂存、顶点着色处理、 渲染和纹理等。 他表示:「GPU 中的大部分电路在部署机器学习之后是没有必要的... 这些东西会随着时间的推移而不断积累,最终产生了非常多无用的东西。 」

  他进一步解释:「对你来说并不需要的电路,在 GPU 芯片中不仅占据了很大一片空间,而且从能源利用率上考虑也产生了相当高的成本。 神经网络则相当简单,利用小巧的矩阵乘法和非线性就能直接创建半导体来实现 GPU 的功能,而且你所创建的半导体非常忠诚于神经网络架构,显然这是 GPU 所无法给予的。 」在设计思路上,CPU 有复杂的控制逻辑和诸多优化电路,相比之下计算能力只是 CPU 很小的一部分;而 GPU 采用了数量众多的计算单元和超长的流水线,但只有非常简单的控制逻辑并省去了快取,因而在需要大量计算的机器学习方面表现更好,而TPU则是专为机器学习的矩阵乘法设计和优化,因而在机器学习方面比 GPU 更胜一筹。

  Khosrowshahi 给出的答案:就是目前尚在开发中的 Lake Crest,这是英特尔今年会针对部分客户提供离散加速器。 但伴随着时间的推移,它将会成为 Xeon 处理器的最佳伙伴。

  Khosrowshahi 解释:「这是一个张量(tensor)处理器,能够处理带矩阵运算的指令。 因此指令集是矩阵 1 和矩阵 2 的相乘,不仅透过查询表运行而且这些大型的指令都是高级别的。 」

  「GPU 主要依靠一个个寄存器(Register),当访问(或者跳转到)某个寄存器,所执行的是元素和元素之间的相乘,这个级别是相当的低了。 」

  Khosrowshahi 表示,最近几年 已经努力让他们的 GPU 对神经网络更加友善,但是他们的 AI 芯片依然承担了大量图形功能。 他表示:「如果只是依靠自己来推动芯片方面的改进,我认为未来 Nvidia 的进化将会变得越来越困难。 」

  与之对应的,英特尔则通过收购的方式来推进

  Khosrowshahi 说:「芯片产业的挑战是即将迎来颠覆性的全新架构:而现在英特尔所做的事情就是将其收入麾下。 他们想要获得 FPGAs(现场可程序逻辑门数组),所以他们收购了 Altera。 这真的是一个非常酷炫非常神经网络的架构。 」

  此外 Khosrowshahi 还纠正了很多人对神经网络的错误想法,他表示并不是将神经网络蚀刻到半导体上,大部分的功能依然通过软件方面来形成。

  他说道:「神经网络大部分都体现在软件方面。 所以即使是 Lake Crest,指令并不是『神经网络,执行这项任务』,而是透过矩阵和矩阵的相乘。 芯片外层部分就是一些我们所熟知的神经网络,在经过培训之后能够根据用户需求来执行各种任务或者搜寻某种参数,当你拥有神经网络之后你就能做任何可以完成的事情。 」

  英特尔的其中一个人工智能架构将会对抗 Google 的定制 TPU。 在 4 月 5 日搜寻龙头 Google 表示, TPU 的平均运转速度要比标准的 GPU/CPU 组合(比如 Intel 的 Haswell 处理器和 Nvidia 的 K80 GPU)快 15~30 倍。 在数据中心计算功耗时,TPU 还提供 30-80 倍的 TeraOps/瓦特(如果未来使用更快的储存装置,这一数字可能还会提高)。

  同样在今年 4 月 5 日,IBM 和 Nvidia 还宣布 Big Blue 在今年 5 月开始向特斯拉 P100S 提供 IBM Cloud 服务。



关键词: Nvidia 人工智能

评论


相关推荐

技术专区

关闭