用AI监控芯片与系统中的监测面板

作者：时间：2026-05-08 来源：

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

芯片厂商正开始采用 AI 来管理从各类 “监测面板” 中采集的数据。这些面板大多已嵌入芯片与系统内部，用于监控从温度梯度、电压骤降等一切运行状态。

这些监测面板通常由 CPU、MCU 等处理器控制，多数情况下对用户不可见，但对追踪不同功能模块、传感器与 I/O 产生的底层数据变化至关重要。它们可按需触发告警，并在毫秒级内完成自动调节。例如：某个处理器核温度过高时，可将数据迁移到其他处理单元以平衡负载、降低发热；若 HBM 的某条数据通道因电迁移出现阻塞或速率过低，信号可自动切换到其他通道。

在过去，这些功能都是独立管理的，彼此隔离，采集的数据格式往往互不兼容。而借助 AI，不同类型的数据可以融合分析，定位设备内部任意位置的潜在问题，让系统能够深度追溯某个区域温度骤升、某台服务器性能下降的根本原因。配合 AI 智能体，这一切都可以自主完成。

这对于预防由发热与功耗引发的问题效果显著，而这两者正是先进工艺设计中最棘手的挑战。

Mo Faisal（Movellus CEO）：“电源管理的根本问题是可视性。监测必须足够快、粒度足够细，才能看清整个供电网络。一旦掌握真实状态，就可以分析并决定后续如何处理。”

关键在于运行中快速定位问题根源，如温度突升、性能下降等。

“温度梯度、IR 压降、L (di/dt) 噪声事件（即电压骤降）都至关重要。L (di/dt) 直接决定设计余量与最低工作电压。你需要与负载强相关的可视性，普通全局监测没有意义。你需要知道事件何时发生、当时系统在做什么，然后才能采取行动优化负载 —— 调节时钟、电压，或控制指令速率。在此之前，你必须先看清发生了什么。”

AI 大幅简化了这一切

William Wang（ChipAgents CEO）：“业内早就想做到这一点。EDA 厂商过去会上门为客户定制软件与面板，比如专门为工厂连接所有生产机台与测试设备的数据。但这对芯片全生命周期管理（SLM）并不适用，因为系统非常脆弱，工艺一变面板就失效。这种模式收入有限、高度人工、耗时且难以通用。”

AI 智能体从根本上改变了这一模式，通过提升抽象层级来理解数据。

“我们现在有管理 AI 智能体的面板。例如在调试时，一个面板可同时监控五个智能体：有的分析日志，有的查看波形，共同定位问题。我可以在 10 个不同项目中激活这些智能体聚合数据，再查看结果。在企业层面，团队如何协作、如何聚合数据？答案依然是面板，但现在它是用来管理 AI 智能体的面板，由智能体从多源聚合数据。”

Frank Schirrmeister（新思科技）：“AI 让过去因复杂度极高而难以推进的工作（如形式验证中属性学习）变得不再困难。这些面板本质上是硬件调试工具，过去靠人工查看波形，现在由一个或一组智能体协助，更快定位根本原因。”

系统级数据

领先芯片厂商已全面接受这一思路。

Hardik Kabaria（Vinci CEO）：“英伟达在打造的是 AI 基础设施，而非单纯芯片。基础设施意味着持续可用、随处可及。数据爆炸式增长，需要通过面板来理解。但芯片、系统、数据中心都受物理定律约束。我们需要让整个生态都能理解传热、能量平衡、动量平衡如何影响系统：是否会产生热点？热点是否影响内存？是否影响共封装光学？当高分辨率、量产级数据足够丰富时，就可以用面板来解读。”

随着设计流程不断向左（提前）、向右（后置）延伸，这类面板变得格外重要。这本质上是并发式系统级设计，统一入口获取信息让分析与协同设计更简单。

Rob Knoth（楷登电子）：“过去芯片团队中，每个模块负责人都要向上汇报数据，但各自用不同面板、不同指标。当层级向上汇总时，报告必须合并。你可能在对同一个模块做形式验证、温度与功耗测量、DRC 收敛，但数据是否来自同一版 RTL？过去这些数据互不关联，难以解读。于是各公司自己写脚本、做数据挖掘，有人试图打造‘终极大一统面板’。”

如今工程师寄望于 AI 简化这一切。

“我们正从单纯芯片设计转向多物理场与真正的系统设计。往上堆叠时不能忽略任何物理效应。设计现代 3.5D 芯片时，必须考虑热应力、翘曲、凸点机械问题。因此，面板必须信息极丰富、易访问，并整合多款工具。”

Jean-Marie Brunet（西门子 EDA）：“在验证领域，我们的面板更多结合智能体 AI，可以追踪 KPI 的演变，例如性能、功耗指标。智能体 AI 正在加速这一过程。”

Ankur Gupta（西门子 EDA）：“智能体 AI 包含规划、执行、评估三个阶段，评估阶段全部是面板数据。从 RTL 到 GDS 的流程，每家芯片公司都有对应的面板。AI 能提供一致视图，只要数据对 AI 可用即可。”

“数据不必完全相同，但必须是结构化数据。我们需要本体论（ontology）来定义每个阶段的输入输出，例如时序、功耗。挑战在于如何在多款工具间保持统一。如果一个工具给总功耗，一个给功耗拆解，一个不报时钟功耗，面板就失效了。”

AI 驱动的监测面板

监测面板的概念由来已久，最初源于汽车仪表盘。如今，传感器依旧是模拟与数字混合，但分析已全面数字化。

在汽车中，AI 可整合过去孤立的各传感器数据，识别问题区域，并快速处理安全关键型问题。这要求数据可访问、结构化、有优先级。

Oscar Camacho（英飞凌）：“这些数据需要更大存储，因此我们采用 FRAM 等存储器，支持边缘多次读写。数据需要在计算机与终端节点间高速传输，由中央计算机实时处理。我们的处理器也在提升算力，增加并行单元，让部分机器学习算法直接在功能模块上运行。”

真正的变化不在于数据量持续暴涨，而在于数据能用来做什么。

“AI 可以预测驾驶员行为、根据电池衰减预测保养需求，让数据支撑更智能的决策。”

将所有数据整合到面板中更易于理解。这与数字孪生理念相似，但AI 智能体可提供更轻量、更细粒度的实现，具体应用取决于成本、数据量与关键程度。

AI 驱动的面板在边缘侧与数据中心尤其重要：边缘功耗受限，数据中心采用先进工艺的多芯粒系统对发热、噪声、老化余量极小，需要更精细的监控。

Movellus 的 Faisal：“电迁移无法直接测量，只会以各种形式表现出来，但必须能监测并采取行动。尤其是在 2nm 等超大芯片上，硬件监测电路将至关重要，否则无法实现有效的电源管理。”

结论

监测面板已是非常普及的概念，但其提供的信息与使用方式正在发生巨变。重点不再是数据量大小，而是从中提取可执行的有效信息。需要挖掘、筛选、访问的数据越多，面板就越重要。

Vinci 的 Kabaria：“客户不是在跑一次物理仿真，而是在跑 50 万次，并要求我们提供面板来指导整个工程团队，把精力放在正确的工作上。”

这已经超出人类处理能力。

新思科技的 Schirrmeister：“人类无法同时掌握 28 个不同维度的监测面板。AI 能够理解数据，帮助找到因果关系与相关性。这在过去机器学习与大数据时代也能做到，但 AI 让它变得极度易用，就像 AI 突然让形式验证变得简单易用一样。”

简而言之：未来的监测面板将更精准、更可定制、更易理解，并将深刻影响芯片设计、制造与使用的全流程。

新闻中心

用AI监控芯片与系统中的监测面板

评论

相关推荐

技术专区