完全卷积神经网络IP——DPU “听涛”系列 SoC

作者：时间：2018-05-04 来源：电子产品世界

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

作者/深鉴科技ASIC副总裁陈忠民

本文引用地址：https://www.eepw.com.cn/article/201805/379458.htm

　　算法、数据和算力并称为新AI时代三大驱动力。如何在追求更好性能的同时实现低功耗、低延迟和低成本，逐渐成为摆在所有AI从业者面前的艰巨挑战之一。

　　很多硬件平台都展示了自身所具备的强大算力，然而当用户在真正运行一个应用时，却发现在读取数据时会产生比较明显的卡顿现象。这表明，即便用户在掌握大量数据的前提下，依然不能将AI运算单元填满，从而导致计算硬件的计算效力低下。以谷歌第一代TPU为例，其平均硬件乘法阵列使用率只有28%，这意味着72%的硬件在大部分时间内是没有任何事情可以做的。　　另外，如果将完成16位整数加法能量消耗定义为1，那么将32比特的数据从DDR内存传输到芯片中，就将花费1万倍的能量消耗。因此，过大的访问带宽增加了数据的复用性，导致AI芯片功耗高居不下。

　　而要提升计算效率、降低功耗，总结起来有三条路径：首先，优化计算引擎，增加计算并行度;其次，优化访存系统;第三，利用神经网络稀疏性，实现软硬件协同设计。这样的产品规划路线能走得通的一个关键因素，就在于用户在未来的ASIC芯片和之前的FPGA模组上使用的是同样的编程和软件开发环境，能实现在应用上的无缝切换。

DPU “听涛”系列 SoC

　　深鉴科技正式发布基于自主研发的人工智能处理器核心DPU 的“听涛”系列 SoC。该DPU属于完全卷积神经网络IP，支持传统的1X1和3X3卷积层，能够实现高效的目标识别和加速。在该架构基础之上，深鉴科技做出了第一代5X5 FPGA产品，并在摄像头市场实现了批量出货。

　　DPU计算核心采用全流水设计结构设计，内部集成了大量的卷积运算器、加法器、非线性Pulling/ReLu之类的运算算子，在确保每一个运算单元都能够被充分的调动起来的前提下，可同时支持不同动态精度的量化方法。像VGG16比较重的应用中，深鉴科技DPU的运算器利用率可以达到85%，对主流算法可以达到50%以上，功耗方面则低出竞争对手一个数量级。

　　相比Zynq 7020每瓦230 GOPS的算力、ZU9 2.7 TOPS的峰值算力，将于年中交付的“听涛”SoC产品的预期功耗约为3 W，峰值算力4 TOPS，考虑到网络压缩部分，这个数字应该再扩大5~10倍。

新闻中心

完全卷积神经网络IP——DPU “听涛”系列 SoC

评论

相关推荐

技术专区