将AI模型和推理引入物联网
人工智能的实施正在从云转向边缘。带宽和延迟是在边缘云应用程序中进行推理时的关键问题,因此源推理对于许多物联网应用程序至关重要。因此,边缘对更多计算能力的需求也在上升。
然而,边缘是一个高度分散的领域,包括工业、智能手机、消费和可穿戴设备等市场。支持音频、语音、文本和视频的上下文 LLM 对物联网计算提出了越来越高的要求,从数百个 GOPS 到数十个 TOPS 甚至更高。针对这一问题,Synaptics 推出了 Astra SL2600 系列多模态边缘 AI 处理器,该处理器目前包括 2610 系列边缘 AI 处理器,旨在提供卓越的功率和性能,支持新一代经济高效的智能设备,使认知物联网 (IoT) 成为可能。
Synaptics 技术产品营销高级总监 Nebu Philip 评论道:“解决人工智能进入碎片化边缘市场的关键是提供合适的芯片和软件,以能够满足整个边缘的处理要求。
瞬息万变的市场中的边缘 AI
边缘市场目前正在经历设备和功能的快速变化。此外,扩展边缘应用程序并不容易。关键问题是,在众多初创公司和云提供商的推动下,人工智能软件、模型和框架正在迅速变化。由于现有的芯片类别无法跟上软件方面的创新速度,芯片供应商面临着充满挑战的设计环境,特别是对于需要较长使用寿命的数百万美元项目。整个人工智能软件生态系统(包括模型、算法、框架、编译器和运行时)的快节奏创新正在对设计方法和产品开发提出挑战。
在软件方面,大型语言模型(LLM)相对稳定,因为Meta和谷歌等超大规模企业已经建立了模型框架。其中包括 LiteRT、TensorFlow、ONNX、PyTorch 和新的 Google 模型格式 JAX。设计师们正在熟悉这些模型。在云上运行,这些模型只需要考虑 Nvidia 或 AMD GPU。然而,在边缘,芯片由许多供应商提供,每个供应商都有与自己的产品紧密相关的不同编译器。一旦提交到特定的编译器,更改就会变得困难且成本高昂,这可能导致供应商锁定。
Nebu Philip 评论道:“使用专有的边缘 AI 编译器和自定义方法将模型集成到应用程序工作流程中,正在为 OEM 创造围墙花园体验和锁定。
AI 架构、开源和合作伙伴关系
Synaptics 旨在通过三个关键战略扩大 AI 推理边缘芯片市场。首先,该公司正在解决可扩展、安全的芯片架构,使 SoC 能够适应不断发展的 AI 模型格式和运算符,从而最大限度地降低随着标准变化或新运算符的添加而过时的风险。其次,Synaptics 正在推广开源、基于标准的人工智能软件,特别是在模型组合器等领域,以防止碎片化并促进全行业的创新。第三,他们寻求与有影响力的生态系统参与者建立合作伙伴关系,以建立最佳实践、推动行业标准并支持通用人工智能硬件的强大应用程序开发。
今年早些时候,Synaptics 与 Google 就 Edge TPU 项目建立了多代芯片合作伙伴关系。TPU(张量处理单元)是谷歌开发的一种 ASIC,用于加速机器学习和神经网络计算。多年前,谷歌启动了 Edge TPU 项目作为硅游戏。最初,TPU 是为云设计的,但谷歌随后将 TPU 架构带到了边缘。此后,谷歌不再强调硅制造的角度,而是创建了任何人都可以集成到硅中并推向市场的开源 IP。
Nebu Philip 补充道:“Google 专注于构建一个生态系统,其中包含连接边缘设备和云的干净开发管道。目前,变现策略基于云。目的是创造公平的竞争环境,以便实现从边缘到云的数据提取。对于 Synaptics 来说,此次合作推进了最先进的模型部署,并通过尽早访问新平台并作为先锋合作伙伴获得市场份额来提供竞争优势。
在为 AI 工作负载设计边缘 SoC 时,仅靠基于 ARM 的标准计算不足以满足不断变化的需求。基于基于标准 ARM 的计算构建的新架构的关键补充必须集成能够处理视觉、音频和环境输入的专用 I/O 管道。新架构确保数据可以有效地流入推理引擎。此外,多租户工作负载的安全性和机密性是重要的考虑因素。
在这种新架构中,一个MPU可以用来加速变压器,这基本上是所有最先进的模型。与之密切相关的还有另外两个元素。一种是使用本地化标量计算来处理尚未定义的新指令或指令集合,以及尚不可用的作。其次,共享、低延迟、高性能的 SRAM 连接了这两个计算机域,从而实现灵活的扩展并确保随着模型的发展与新的 AI 工作负载兼容。

图 1:用于边缘 AI 的可扩展安全处理器的新架构。
2010 年边缘 AI 处理器系列内部
新的 SL2610 系列 2610 系列边缘 AI 处理器包括五个引脚对引脚兼容系列——SL2611、SL2613、SL2615、SL2617 和 SL2619——专为从电池供电和被动冷却设备到高性能工业视觉系统等广泛应用而构建。这些处理器提供高能效,并与 Synaptics Veros Connectivity 跨 Wi-Fi 6/6E/7、BT/BLE、Thread 和 UWB 无缝集成,提供统一的开发人员体验,加快上市时间。
“凭借 Astra SL2610 系列边缘 AI 处理器,Synaptics 正在重新定义边缘 AI 的可能性。通过行业领先的能效和突破性的多模态人工智能加速,这些处理器为客户设计可扩展的下一代物联网提供了架构基础,“Synaptics 边缘人工智能物联网处理器高级副总裁兼总经理 Vikram Gupta 说。
Synaptics 还提供 SL1600 系列 AI 原生 Linux 和 Android AI 处理器,以及 SR100 高性能上下文感知 AI MCU,均已投入生产。SR 200 系列正在开发中。
SL2619 系列是 SL2610 系列边缘 AI 处理器中的最高端产品,具有双 2 GHz Arm Cortex A55 内核和基于 Arm Cortex-M52 MC 的低功耗子系统,用于系统管理、电源管理和安全启动。它包括一个专用的加密加速器,并支持多模态视频和音频输入管道。
突出的功能是 Torq NPU 子系统,它包括一个 Synaptics 设计的可扩展 T1 NPU,用于对 Transformer 和卷积神经网络 (CNN) 模型进行低延迟、高吞吐量硬件加速,并结合 Google 开源 Coral NPU,一个基于 RISC-V 的低功耗、高度可编程的引擎。Coral NPU 与 Torq AI 子系统紧密集成,旨在处理新的和不受支持的指令。T1 无法处理的任何内容都可以移植到 Coral NPU。这种设置支持智能管理的分层处理系统,在完全加速的计算引擎、RISC-V 内核和双核 Arm 主机处理器之间提供灵活的编程模型,从而实现最佳资源利用率。Google Coral NPU ML RISC-V 加速器的实施是业界首创。
该软件是 Torq 平台的后半部分,提供编译器、运行时、构建框架和其他工具来利用 NPU。它使开发人员能够为视觉、音频和语音创建在 NPU 上无缝运行的多模态 AI 应用程序。
与其他通常是专有和闭源的人工智能编译器相比,Torq 具有与 Google 合作开发的开源编译器。通过使编译器和工具链开源,Synaptics 和 Google 旨在为开发人员创建一个更易于访问的生态系统。
SL2619 还通过硬件锚点、威胁检测和应用程序加密提供边缘安全性。
解决编译器问题
过去几年的一个趋势是,硅供应商收购模具公司,并将这些工具紧密集成到他们的硅产品组合中,使原始设备制造商能够开发产品。然而,这会将 OEM 锁定在特定于供应商的专有工具体验中,从而减少了选择。为了解决这个问题,MLIR(多级中间表示)项目提供了一个完全开源的模块化编译器基础设施,支持多个抽象级别。MLIR 最初主要由 Google 开发并作为 LLVM 项目的一部分进行维护,它支持无缝摄取各种模型格式(PyTorch、ONNX、JAX)并编译成可部署在硅中不同 AI 引擎子系统的二进制文件。此外,它从头到尾都是完全开源的。
Torq 使用 IREE(中间表示执行环境),它是建立在 MLIR 编译器基础设施之上的端到端编译器和运行时框架。它使用 MLIR 的模块化和可扩展中间表示来编译和优化针对不同硬件目标(包括 CPU、GPU 和加速器)的机器学习模型,从而实现跨平台的无缝模型部署。

Torq 端到端编译器和运行时框架。
Nebu Philip评论道:“这创造了公平的竞争环境,因为开发人员不再受制于大型芯片供应商的专有编译器和工具。面向未来的人工智能架构与开源工具的结合将以积极的方式在物联网领域产生巨大的颠覆性影响。
Synaptics 将其所有开源边缘 AI 软件和工具整合到 developer.synaptics.com。这种交互式资源使用户能够从模型集合开始,对其进行优化,然后在现成的开发工具包上运行它们。该软件和工具允许用户直接在桌面上完成评估,然后进一步优化。
展望未来
2600 系列中的 2610 系列边缘 AI 处理器是高端系列中的入门级产品。它非常节能,可以在电池供电的系统上运行或用于能量收集设计。到明年年底,Synaptics 将拥有一套中端系列。
2010 系列边缘 AI 处理器实现了 CPU 的 1-TOP 实现。然而,由于架构的原因,即使与使用现有架构的 4-TOPS 或 8-TOPS 器件相比,效率也高得多。低功耗、高效率设计的关键是使用 RISC-V Coral NPU,这是一种低于 10 毫瓦的实现。2010 系列只是第一代,它旨在加速当今的标量指令。第二代将加速矢量指令,而第三代将具有矩阵指令。
量子阻力和加密算法也在路线图上,但由于标准仍在发展,它们还没有准备好在硅中实施。然而,谷歌研究团队也在研究 CHERI(功能硬件增强型 RISC 指令),这是一个主要由剑桥大学与 SRI International 合作领导的研究项目。CHERI 通过基于功能的安全功能增强了 RISC-V 和 Arm 等 ISA 架构,主要提供细粒度的内存保护。实施此 IP 也在路线图上。
将 AI 模型引入边缘
将人工智能模型和推理引入物联网代表了从以云为中心的计算到以边缘为中心的计算的变革性转变,解决了延迟、带宽和数据隐私等关键挑战。使用边缘人工智能在本地处理数据的能力可以实现实时决策,通过最大限度地减少数据传输来增强安全性,并减少对云的依赖。然而,物联网市场的碎片化性质需要适应性强的芯片和开放软件生态系统,以适应快速发展的人工智能模型和多样化的应用需求。Astra SL2600 系列具有可扩展的架构、高效的功耗和灵活的 NPU,展示了下一代硬件如何为边缘的多模态 AI 工作负载提供支持。合作伙伴关系,例如多代 Synaptics-Google 合作以及 MLIR 和 IREE 等开源工具链,可推动创新并减少供应商锁定。展望未来,处理器设计、CHERI 等安全功能和加密增强功能的不断进步将进一步释放物联网的潜力,实现智能、安全和高效的边缘人工智能应用,重新定义互联设备的未来。











评论