新闻中心

EEPW首页 > 智能计算 > 业界动态 > AI芯片的过去和未来,看这篇文章就够了

AI芯片的过去和未来,看这篇文章就够了

作者: 时间:2018-11-01 来源:创事记 收藏
编者按:近几年,AI技术的应用场景开始向移动设备转移,比如汽车上的自动驾驶、手机上的人脸识别等。产业的需求促成了技术的进步,而AI芯片作为产业的根基,必须达到更强的性能、更高的效率、更小的体积,才能完成AI技术从云端到终端的转移。

  同样在2016年,谷歌发布了加速深度学习的TPU(TensorProcessingUnit),并且之后升级为TPU2.0和TPU3.0。与英伟达的不同,谷歌的TPU设置在云端,就像文章在Alpha Go的例子中说的一样,并且“只租不卖“,服务按小时收费。不过谷歌TPU的性能也十分强大,算力达到180万亿次每秒,并且功耗只有200w。

本文引用地址:https://www.eepw.com.cn/article/201811/393690.htm


谷歌TPU芯片 图片来自网络,版权属于作者

  谷歌TPU芯片 图片来自网络,版权属于作者

  关于各自芯片的性能,谷歌CEOSundarPichai和英伟达CEO黄仁勋之前还在网上产生过争论。别看两位大佬为自家产品撑腰,争得不可开交,实际上不少网友指出,这两款产品没必要“硬做比较”,因为一个是在云端,一个是在终端。

  除了大公司,初创企业也在激烈竞争ASIC芯片市场。那么初创企业在行业中该如何生存呢?对此,芯片初创企业 Novumind的中国区CEO周斌告诉小探:创新是初创企业的核心竞争力。

  2017年,NovuMind推出了第一款自主设计的芯片:NovuTensor。这款芯片使用原生张量处理器(NativeTensorProcessor)作为内核构架,这种内核架构由NovuMind自主研发,并在短短一年内获得美国专利。除此之外,NovuTensor芯片采用不同的异构计算模式来应对不同AI应用领域的三维张量计算。2018年下半年,Novumind刚推出了新一代NovuTensor芯片,这款芯片在做到15万亿次计算每秒的同时,全芯片功耗控制在15W左右,效率极高。


Novumind的NovuTensor芯片

  Novumind的NovuTensor芯片

  尽管NovuTensor芯片的纸面算力不如英伟达的芯片,但是其计算延迟和功耗却低得多,因此适合边缘端AI计算,也就是服务于物联网。虽然大家都在追求高算力,但实际上不是所有芯片都需要高算力的。比如用在手机、智能眼镜上的芯片,虽然也对算力有一定要求,但更需要的是低能耗,否则你的手机、智能眼镜等产品,用几下就没电了,也是很麻烦的一件事情。并且据EETimes的报道,在运行ResNet-18、ResNet-34、ResNet70、VGG16等业界标准神经网络推理时,NovuTensor芯片的吞吐量和延迟都要优于英伟达的另一款高端芯片Xavier。

  结合Novumind现阶段的成功,我们不难看出:在云端市场目前被英伟达、谷歌等巨头公司霸占,终端应用芯片群雄逐鹿的情形下,专注技术创新,在关键指标上大幅领先所有竞争对手,或许是AI芯片初创企业的生存之道。

  类脑芯片

  如文章开头所说,目前所有电脑,包括以上谈到的所有芯片,都基于冯·诺依曼架构。

  然而这种架构并非十全十美。将CPU与内存分开的设计,反而会导致所谓的冯·诺伊曼瓶颈(von Neumann bottleneck):CPU与内存之间的资料传输率,与内存的容量和CPU的工作效率相比都非常小,因此当CPU需要在巨大的资料上执行一些简单指令时,资料传输率就成了整体效率非常严重的限制。

  既然要研制人工智能芯片,那么有的专家就回归问题本身,开始模仿人脑的结构。

  人脑内有上千亿个神经元,而且每个神经元都通过成千上万个突触与其他神经元相连,形成超级庞大的神经元回路,以分布式和并发式的方式传导信号,相当于超大规模的并行计算,因此算力极强。人脑的另一个特点是,不是大脑的每个部分都一直在工作,从而整体能耗很低。


神经元结构 图片来源:维基百科

  神经元结构 图片来源:维基百科

  这种类脑芯片跟传统的冯·诺依曼架构不同,它的内存、CPU和通信部件是完全集成在一起,把数字处理器当作神经元,把内存作为突触。除此之外,在类脑芯片上,信息的处理完全在本地进行,而且由于本地处理的数据量并不大,传统计算机内存与CPU之间的瓶颈不复存在了。同时,神经元只要接收到其他神经元发过来的脉冲,这些神经元就会同时做动作,因此神经元之间可以方便快捷地相互沟通。

  在类脑芯片的研发上,IBM是行业内的先行者。2014年IBM发布了TrueNorth类脑芯片,这款芯片在直径只有几厘米的方寸的空间里,集成了4096个内核、100万个“神经元”和2.56亿个“突触”,能耗只有不到70毫瓦,可谓是高集成、低功耗的完美演绎。


装有16个TrueNorth芯片的DARPASyNAPSE主板 图片来自网络,版权属于作者

  装有16个TrueNorth芯片的DARPASyNAPSE主板 图片来自网络,版权属于作者  

   那么这款芯片的实战表现如何呢?IBM研究小组曾经利用做过DARPA的NeoVision2Tower数据集做过演示。它能以30帧每秒速度,实时识别出街景视频中的人、自行车、公交车、卡车等,准确率达到了80%。相比之下,一台笔记本编程完成同样的任务用时要慢100倍,能耗却是IBM芯片的1万倍。

  然而目前类脑芯片研制的挑战之一,是在硬件层面上模仿人脑中的神经突触,换而言之就是设计完美的人造突触。

  在现有的类脑芯片中,通常用施加电压的方式来模拟神经元中的信息传输。但存在的问题是,由于大多数由非晶材料制成的人造突触中,离子通过的路径有无限种可能,难以预测离子究竟走哪一条路,造成不同神经元电流输出的差异。

  针对这个问题,今年麻省理工的研究团队制造了一种类脑芯片,其中的人造突触由硅锗制成,每个突触约25纳米。对每个突触施加电压时,所有突触都表现出几乎相同的离子流,突触之间的差异约为4%。与无定形材料制成的突触相比,其性能更为一致。

  即便如此,类脑芯片距离人脑也还有相当大的距离,毕竟人脑里的神经元个数有上千亿个,而现在最先进的类脑芯片中的神经元也只有几百万个,连人脑的万分之一都不到。因此这类芯片的研究,离成为市场上可以大规模广泛使用的成熟技术,还有很长的路要走,但是长期来看类脑芯片有可能会带来计算体系的革命。

  说了这么多,相信读者们对AI芯片行业已经有了基本的认识。在未来,AI芯片是否会从云端向终端发展?行业中大小公司的激烈的竞争会催生出怎样的创新和转型?类脑芯片的研发又能取得哪些突破?关于这些问题,每个人都会有不同的见解,欢迎各位读者在下面留言。


上一页 1 2 下一页

关键词: AI 芯片

评论


相关推荐

技术专区

关闭