Cadence推出面向硅设计的全新Neo NPU IP和NeuroWeave SDK,加速设备端和边缘AI性能及效率

作者：时间：2023-09-20 来源：电子产品世界

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

本文引用地址：https://www.eepw.com.cn/article/202309/450761.htm

● Neo NPU可有效地处理来自任何主处理器的负载，单核可从 8 GOPS 扩展到 80 TOPS，多核可扩展到数百 TOPS

● AI IP可提供业界领先的 AI 性能和能效比，实现最佳 PPA 结果和性价比

● 面向广泛的设备端和边缘应用，包括智能传感器、物联网、音频/视觉、耳戴/可穿戴设备、移动视觉/语音 AI、AR/VR 和 ADAS

● 全面、通用的 NeuroWeave SDK 可通过广泛的 Cadence AI 和 Tensilica IP 解决方案满足所有目标市场的需求

楷登电子（美国 Cadence 公司）近日宣布，推出新一代AI IP和软件工具，以满足市场对设备端和边缘 AI 处理不断增长的需求。新推出的 Cadence^® Neo™ Neural Processing Units（NPU）扩展能力很强，可为低功耗应用提供广泛的 AI 功能，将 AI SoC 的效率和性能提升到新的水平。Neo NPU 单核配置的性能高达 80 TOPS，支持经典 AI 模型和最新的生成式 AI 模型，配有简单易用的可扩展 AMBA^® AXI 互联，可处理来自任何处理器的 AI/ML 负载，包括应用处理器、通用型微处理器和 DSP。NeuroWeave™ Software Development Kit（SDK）是对 AI 硬件的补充，为开发人员提供了一站式 AI 软件解决方案，涵盖 Cadence AI 和 Tensilica^® IP 产品，用于实现“零代码”AI 开发。

“近期 AI 的关注点都在云上，但传统 AI 和生成式 AI 在边缘和设备端的应用也很有前景，”TECHnalysis Research 总裁兼首席分析师 Bob O’Donnell 说，“从消费电子到手机和汽车，再到企业，我们迎来了便捷智能设备的时代。为了实现这些目标，芯片设计师和设备制造商需要借助灵活、可扩展的软硬件联合解决方案，为功耗和计算性能需求各异的应用提供 AI 功能——与此同时还要能够使用熟悉的工具来完成。经过优化的新芯片架构要能够加速机器学习模型和软件工具，并与热门的 AI 开发框架无缝集成，这一点非常关键。”

灵活的 Neo NPU 非常适合对功耗非常敏感的设备以及具有可配置架构的高性能系统，使 SoC 架构师能够在智能传感器、物联网和移动设备、摄像头、耳戴/可穿戴设备、个人电脑、AR/VR 头显和高级驾驶辅助系统（ADAS）等各种产品中集成最佳的人工智能推理解决方案。新增的硬件和性能增强功能以及关键特性/功能包括：

● 可扩展性：单核解决方案可从 8 GOPS 扩展到 80 TOPS，多核可进一步扩展到数百 TOPS。

● 广泛的配置范围：每个周期支持 256 到 32K 个 MAC，允许 SoC 架构师优化其嵌入式 AI 解决方案，以满足功耗、性能和面积（PPA）权衡的要求。

● 集成支持各种网络拓扑结构和运营商：可高效运行来自任何主处理器（包括 DSP、通用型微控制器或应用处理器）的推理任务，从而显著提高系统性能，降低功耗。

● 易于部署：加快产品上市，满足日新月异的新一代视觉、音频、雷达、自然语言处理（NLP）和生成式 AI 流水线的需求。

● 灵活性：支持 Int4、Int8、Int16 和 FP16 数据类型，涵盖构成 CNN、RNN 和基于 Transformer 的网络基础的各种操作，可灵活权衡神经网络的性能和准确性。

● 高性能和高效率：与第一代 Cadence AI IP 相比，性能最多可提高 20 倍，每面积每秒推理次数（IPS/mm2）提高 2-5 倍，每瓦每秒推理次数（IPS/W）提高 5-10 倍。

软件是任何 AI 解决方案的关键组成部分，为此 Cadence 还升级了通用软件工具链，推出了 NeuroWeave SDK。NeuroWeave SDK 为客户提供跨 Tensilica DSP、控制器和 Neo NPU 的统一、可扩展、可配置的软件堆栈，以满足所有目标应用的需要，简化产品开发，并能随着设计要求的变化而轻松迁移。NeuroWeave SDK 支持许多行业标准的特定领域机器学习框架，包括用于自动端到端代码生成的 TensorFlow、ONNX、PyTorch、Caffe2、TensorFlow Lite、MXNet、JAX 等；Android 神经网络编译器；用于实时执行的 TF Lite Delegates；以及用于微控制器级设备的 TensorFlow Lite Micro。

“二十年来，处理器出货量超过 600 亿个，与此同时，行业领先的 SoC 客户一直依靠 Cadence 处理器 IP 来设计尖端的设备端 SoC。我们的 Neo NPU 依托了这种专长，让 AI 处理能力和性能实现飞跃，”Cadence Tensilica IP 研发副总裁 David Glasco 说道，“如今的市场格局瞬息万变，我们必须确保客户能够根据独特的要求和 KPI 设计出卓越的 AI 解决方案，同时无需担心后续的神经网络支持问题。为了实现这一点，我们投入了大量的人力物力来开发新的 AI 硬件平台和软件工具链，在性能、功耗和成本方面不断优化，推动 AI 系统的快速部署。”

“Labforge 在开发 Bottlenose 智能相机产品线时使用了一组 Cadence Tensilica DSP，为功耗敏感的边缘应用提供一流的 AI 处理性能，”Labforge, Inc. 首席执行官 Yassir Rizwan 表示，“Cadence 的 AI 软件是我们嵌入式低功耗人工智能解决方案不可或缺的一部分，我们期待 Cadence 新推出的 NeuroWeave SDK 能够提供新的功能和更高的性能。有了端到端编译器工具链流程，我们就能更好地解决自动化和机器人领域的 AI 挑战性——加快产品上市，充分利用基于生成式 AI 的应用需求，开辟通过其他途径无法实现的新市场。”

Neo NPU 和 NeuroWeave SDK 支持 Cadence 的智能系统设计（Intelligent System Design™）战略，旨在通过卓越的 SoC 设计实现普适智能。

可用性

Neo NPU 和 NeuroWeave SDK 预计将于 2023 年 12 月全面上市。针对主要客户的早期参与计划已经开始。