新闻中心

EEPW首页 > 智能计算 > 专题 > 完全卷积神经网络IP——DPU “听涛”系列 SoC

完全卷积神经网络IP——DPU “听涛”系列 SoC

作者:时间:2018-05-04来源:电子产品世界收藏

作者/科技ASIC副总裁 陈忠民

本文引用地址:http://www.eepw.com.cn/article/201805/379458.htm

  算法、数据和算力并称为新时代三大驱动力。如何在追求更好性能的同时实现低功耗、低延迟和低成本,逐渐成为摆在所有从业者面前的艰巨挑战之一。

  很多硬件平台都展示了自身所具备的强大算力,然而当用户在真正运行一个应用时,却发现在读取数据时会产生比较明显的卡顿现象。这表明,即便用户在掌握大量数据的前提下,依然不能将运算单元填满,从而导致计算硬件的计算效力低下。以谷歌第一代TPU为例,其平均硬件乘法阵列使用率只有28%,这意味着72%的硬件在大部分时间内是没有任何事情可以做的。  另外,如果将完成16位整数加法能量消耗定义为1,那么将32比特的数据从DDR内存传输到芯片中,就将花费1万倍的能量消耗。因此,过大的访问带宽增加了数据的复用性,导致AI芯片功耗高居不下。

  而要提升计算效率、降低功耗,总结起来有三条路径:首先,优化计算引擎,增加计算并行度;其次,优化访存系统;第三,利用神经网络稀疏性,实现软硬件协同设计。这样的产品规划路线能走得通的一个关键因素,就在于用户在未来的ASIC芯片和之前的FPGA模组上使用的是同样的编程和软件开发环境,能实现在应用上的无缝切换。

“听涛”系列 SoC

  科技正式发布基于自主研发的人工智能处理器核心 的“听涛”系列 SoC。该属于完全卷积神经网络IP,支持传统的1X1和3X3卷积层,能够实现高效的目标识别和加速。在该架构基础之上,科技做出了第一代5X5 FPGA产品,并在摄像头市场实现了批量出货。

  DPU计算核心采用全流水设计结构设计,内部集成了大量的卷积运算器、加法器、非线性Pulling/ReLu之类的运算算子,在确保每一个运算单元都能够被充分的调动起来的前提下,可同时支持不同动态精度的量化方法。像VGG16比较重的应用中,深鉴科技DPU的运算器利用率可以达到85%,对主流算法可以达到50%以上,功耗方面则低出竞争对手一个数量级。

  相比Zynq 7020每瓦230 GOPS的算力、ZU9 2.7 TOPS的峰值算力,将于年中交付的“听涛”SoC产品的预期功耗约为3 W,峰值算力4 TOPS,考虑到网络压缩部分,这个数字应该再扩大5~10倍。



关键词: 深鉴 AI DPU

评论


相关推荐

技术专区

关闭