AI 智能体的应用现已随处可见,且自主性正不断提升。从网页自主导航到通过递归方式优化自身编程能力,智能体式人工智能有望重构数字经济格局、重新定义互联网的形态。但在企业场景中,AI 智能体的应用却潜藏着巨大风险。从单纯的能力增强转向全流程自动化,这一转变本身就充满不确定性,尤其是当 AI 智能体被赋予全权执行关键业务操作的权限时 —— 小到完成一笔简单的金融交易,大到协调复杂的供应链体系,均面临着未知风险。为降低此类风险,卡内基梅隆大学与 Fujitsu 的研究人员研发出三项基准测试,用于评估 AI 智能体