AI芯片的过去和未来，看这篇文章就够了

作者：时间：2018-11-01 来源：创事记

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

编者按：近几年，AI技术的应用场景开始向移动设备转移，比如汽车上的自动驾驶、手机上的人脸识别等。产业的需求促成了技术的进步，而AI芯片作为产业的根基，必须达到更强的性能、更高的效率、更小的体积，才能完成AI技术从云端到终端的转移。

　　同样在2016年，谷歌发布了加速深度学习的TPU(TensorProcessingUnit)芯片，并且之后升级为TPU2.0和TPU3.0。与英伟达的芯片不同，谷歌的TPU芯片设置在云端，就像文章在Alpha Go的例子中说的一样，并且“只租不卖“，服务按小时收费。不过谷歌TPU的性能也十分强大，算力达到180万亿次每秒，并且功耗只有200w。

本文引用地址：https://www.eepw.com.cn/article/201811/393690.htm

　　谷歌TPU芯片图片来自网络，版权属于作者

　　关于各自AI芯片的性能，谷歌CEOSundarPichai和英伟达CEO黄仁勋之前还在网上产生过争论。别看两位大佬为自家产品撑腰，争得不可开交，实际上不少网友指出，这两款产品没必要“硬做比较”，因为一个是在云端，一个是在终端。

　　除了大公司，初创企业也在激烈竞争ASIC芯片市场。那么初创企业在行业中该如何生存呢?对此，AI芯片初创企业 Novumind的中国区CEO周斌告诉小探：创新是初创企业的核心竞争力。

　　2017年，NovuMind推出了第一款自主设计的AI芯片：NovuTensor。这款芯片使用原生张量处理器(NativeTensorProcessor)作为内核构架，这种内核架构由NovuMind自主研发，并在短短一年内获得美国专利。除此之外，NovuTensor芯片采用不同的异构计算模式来应对不同AI应用领域的三维张量计算。2018年下半年，Novumind刚推出了新一代NovuTensor芯片，这款芯片在做到15万亿次计算每秒的同时，全芯片功耗控制在15W左右，效率极高。

　　Novumind的NovuTensor芯片

　　尽管NovuTensor芯片的纸面算力不如英伟达的芯片，但是其计算延迟和功耗却低得多，因此适合边缘端AI计算，也就是服务于物联网。虽然大家都在追求高算力，但实际上不是所有芯片都需要高算力的。比如用在手机、智能眼镜上的芯片，虽然也对算力有一定要求，但更需要的是低能耗，否则你的手机、智能眼镜等产品，用几下就没电了，也是很麻烦的一件事情。并且据EETimes的报道，在运行ResNet-18、ResNet-34、ResNet70、VGG16等业界标准神经网络推理时，NovuTensor芯片的吞吐量和延迟都要优于英伟达的另一款高端芯片Xavier。

　　结合Novumind现阶段的成功，我们不难看出：在云端市场目前被英伟达、谷歌等巨头公司霸占，终端应用芯片群雄逐鹿的情形下，专注技术创新，在关键指标上大幅领先所有竞争对手，或许是AI芯片初创企业的生存之道。

　　类脑芯片

　　如文章开头所说，目前所有电脑，包括以上谈到的所有芯片，都基于冯·诺依曼架构。

　　然而这种架构并非十全十美。将CPU与内存分开的设计，反而会导致所谓的冯·诺伊曼瓶颈(von Neumann bottleneck)：CPU与内存之间的资料传输率，与内存的容量和CPU的工作效率相比都非常小，因此当CPU需要在巨大的资料上执行一些简单指令时，资料传输率就成了整体效率非常严重的限制。

　　既然要研制人工智能芯片，那么有的专家就回归问题本身，开始模仿人脑的结构。

　　人脑内有上千亿个神经元，而且每个神经元都通过成千上万个突触与其他神经元相连，形成超级庞大的神经元回路，以分布式和并发式的方式传导信号，相当于超大规模的并行计算，因此算力极强。人脑的另一个特点是，不是大脑的每个部分都一直在工作，从而整体能耗很低。

　　神经元结构图片来源：维基百科

　　这种类脑芯片跟传统的冯·诺依曼架构不同，它的内存、CPU和通信部件是完全集成在一起，把数字处理器当作神经元，把内存作为突触。除此之外，在类脑芯片上，信息的处理完全在本地进行，而且由于本地处理的数据量并不大，传统计算机内存与CPU之间的瓶颈不复存在了。同时，神经元只要接收到其他神经元发过来的脉冲，这些神经元就会同时做动作，因此神经元之间可以方便快捷地相互沟通。

　　在类脑芯片的研发上，IBM是行业内的先行者。2014年IBM发布了TrueNorth类脑芯片，这款芯片在直径只有几厘米的方寸的空间里，集成了4096个内核、100万个“神经元”和2.56亿个“突触”，能耗只有不到70毫瓦，可谓是高集成、低功耗的完美演绎。

　　装有16个TrueNorth芯片的DARPASyNAPSE主板图片来自网络，版权属于作者　　

那么这款芯片的实战表现如何呢?IBM研究小组曾经利用做过DARPA的NeoVision2Tower数据集做过演示。它能以30帧每秒速度，实时识别出街景视频中的人、自行车、公交车、卡车等，准确率达到了80%。相比之下，一台笔记本编程完成同样的任务用时要慢100倍，能耗却是IBM芯片的1万倍。

　　然而目前类脑芯片研制的挑战之一，是在硬件层面上模仿人脑中的神经突触，换而言之就是设计完美的人造突触。

　　在现有的类脑芯片中，通常用施加电压的方式来模拟神经元中的信息传输。但存在的问题是，由于大多数由非晶材料制成的人造突触中，离子通过的路径有无限种可能，难以预测离子究竟走哪一条路，造成不同神经元电流输出的差异。

　　针对这个问题，今年麻省理工的研究团队制造了一种类脑芯片，其中的人造突触由硅锗制成，每个突触约25纳米。对每个突触施加电压时，所有突触都表现出几乎相同的离子流，突触之间的差异约为4%。与无定形材料制成的突触相比，其性能更为一致。

　　即便如此，类脑芯片距离人脑也还有相当大的距离，毕竟人脑里的神经元个数有上千亿个，而现在最先进的类脑芯片中的神经元也只有几百万个，连人脑的万分之一都不到。因此这类芯片的研究，离成为市场上可以大规模广泛使用的成熟技术，还有很长的路要走，但是长期来看类脑芯片有可能会带来计算体系的革命。

　　说了这么多，相信读者们对AI芯片行业已经有了基本的认识。在未来，AI芯片是否会从云端向终端发展?行业中大小公司的激烈的竞争会催生出怎样的创新和转型?类脑芯片的研发又能取得哪些突破?关于这些问题，每个人都会有不同的见解，欢迎各位读者在下面留言。

新闻中心

AI芯片的过去和未来，看这篇文章就够了

评论

相关推荐

技术专区