边缘视觉 AI 的理想平台
Kria K26 SOM
本文引用地址:https://www.eepw.com.cn/article/202106/426416.htmKria K26 SOM 专门为满足当前和未来市场对视觉 AI 和视频分析的需求而设计。尺寸仅有手掌大小,Kria SOM 搭载基于 Zynq® UltraScale+™ MPSoC 架构的自适应 SoC 以及支持该 SoC 所需的所有基本组件(如存储器和电源)。
量产部署的定制也简便易行。Kria SOM 搭配一款简单的专为最终用户设计的载卡,该卡集成了用户终端系统具体使用的连接组件和附加组件。
在评估和开发方面,赛灵思提供了一款入门套件。套件包含与视觉型载卡搭配的 Kria K26 SOM。通过将预定义视觉硬件平台、构建在 Yocto 或 Ubuntu 上的高度可靠且综合全面的软件协议栈与预构建视觉型加速应用相结合,为开发者提供了一个运用赛灵思技术构建系统的前所未有的方法。详细介绍请参阅赛灵思白皮书:借助 Kria SOM 实现嵌入式设计简化[参考资料 6]和 Kria KV260 视觉 AI 入门套件用户指南[参考资料7]。本白皮书的结论以 KV260 视觉 AI 入门套件为依据。参见图 2。
图2 KV260 视觉 AI 入门套件
将 K26 SOM 用作边缘设备
智能应用除了要求亚微秒级的时延,还需要具备私密性、低功耗、安全性和低成本。以 Zynq MPSoC 架构为基础,Kria K26 SOM 提供了业界一流的单位功耗性能和更低的总体拥有成本,使之成为边缘设备的理想选择。Kria SOM 具备硬件可配置能力,也就是说在 K26 上实现的解决方案是可扩展,同时具备未来兼容能力的。
原始计算能力
就在边缘设备上部署解决方案而言,硬件必须拥有充足的算力,才能处理先进 ML 算法工作负载。我们可以使用各种深度学习处理单元 (DPU) 配置对 Kria K26 SOM 进行配置,还能根据性能要求,将最适用的配置集成到设计内。例如,运行在 300MHz 的 DPU B3136 的峰值性能是 0.94TOPS。运行在 300MHz 的 DPU B4096 的峰值性能是 1.2TOPS,几乎是 Jetson Nano 公布的峰值性能 472GFLOPS[参考资料 8]的差不多 3 倍。
支持更低精度的数据类型
深度学习算法正在以极快的速度演进发展,INT8、二进制、三进制等更低精度的数据类型和定制数据正在进入使用。GPU 厂商难以满足当前的市场需求,因为他们必须修改/调整他们的架构,才能适应并支持定制的或者更低精度的数据类型。Kria K26 SOM 支持全系列数据类型精度,如 PF32、INT8、二进制和其他定制数据类型。此外,根据 Mark Horowitz(雅虎创始者、斯坦福大学工程学院教授、计算机科学教授)提供的数据点[参考资料 9],以较低精度数据类型进行的运算功耗更低,比如在 INT8 上进行的运算的功耗比在 FP32 上进行的运算低一个数量级。参见图3。
图3 运算的能耗成本
图3 所列数值依据台积电 45nm工艺并被证明可以准确地缩放到更小的工艺节点。因此,Kria SOM 通过可重配置能力,允许适配任何数据类型,这是一个重大优势。
低时延与低功耗
一般情况下,对于任何实现在多核 CPU、GPU 或者任何 SoC 上的应用设计而言,功耗可在总体上按如下估算大致进行划分[参考资料 9]:
● 核心 = 30%
● 内部存储器(L1、L2、L3)= 30%
● 外部存储器(DDR)= 40%
这就是 GPU 功耗高的主要原因。为了改善软件可编程能力,GPU 架构需要频繁访问外部 DDR。这种做法非常低效,有时候会对高带宽设计要求构成瓶颈。相反,Zynq MPSoC 架构具有高能效。它的可重配置能力便于开发者设计的应用减少或不必访问外部存储器。这不仅有助于减少应用的总功耗,也通过降低端到端时延改善了响应能力。图4 所示的是一种典型的汽车应用架构,其中 GPU 与各个模块的通信都通过 DDR 实现,而 Zynq MPSoC 器件采用的是在设计上避免访问任何DDR 的高效率流水线。
图4 典型 GPU 与 Zynq MPSoC 架构
灵活性
与数据流固定的 GPU 不同,赛灵思硬件提供了灵活性用来专门地重新配置数据路径,从而实现最大吞吐量并降低时延。此外,可编程的数据路径也降低了对批处理的需求,而批处理是 GPU 的一个重大不足,需要在降低时延或提高吞吐量之间做出权衡取舍。Kria SOM 灵活的架构已在稀疏网络中展示出巨大潜力。稀疏网络是当前 ML 应用中最热门的趋势之一。另一个重要特性(能进一步提高 Kria SOM 灵活性的特性)是任意 I/O 连接。它让 K26 SOM 在无需主机 CPU 的情况下就可以连接到任何设备、网络或存储设备。
评论