人工智能最大的瓶颈并非GPU,而是数据韧性
三年前,当邓白氏集团(Dun & Bradstreet Holdings Inc.)着手构建一套以人工智能为核心的分析能力套件时,遭遇了一个如今在企业人工智能领域普遍存在的问题:如何在扩大人工智能工作流规模的同时,不牺牲对底层数据的信任。
信任是不容妥协的关键。该公司的全球企业识别编码系统(Data Universal Numbering System),相当于企业的 “社会保障号”,已嵌入超过 20 万家客户的信贷决策、合规管理、贷款发放和供应商资质审核流程中,其中包括约 90% 的《财富》500 强企业。
邓白氏首席数据与分析官加里・科托维茨(Gary Kotovets)表示,引入智能体人工智能(agentic AI)带来了新的透明度、数据溯源和可恢复性挑战,需要额外的保障措施。“我们业务的核心是信任,” 他说,“当我们开始通过人工智能和智能体提供这些数据时,必须确保同样水平的信任得以延续。”
在两年多的时间里,邓白氏构建了一个多层数据韧性框架,包括统一的备份和留存策略、模型版本控制、置信度评分,以及用于检测异常和合成输出的完整性监控。该公司还扩展了治理层,以防止数据泄露,并执行严格的访问权限规则。
邓白氏科托维茨:“我们业务的核心是信任。”
“我们最初制定的治理标准以为能涵盖所有情况,但在过去两三年里一直在不断补充完善,” 科托维茨说。当邓白氏人工智能平台(D&B.AI)推出时,信任已不仅仅是营销口号,更是该系统可量化的属性。
邓白氏的经历凸显了企业必须付出的努力,以确保人工智能(尤其是智能体人工智能)能够持续交付可靠可信的结果。近期研究表明,许多公司距离实现这一目标仍有很大差距。
在企业竞相满足董事会提出的人工智能应用需求时,支撑人工智能模型可靠运行的数据韧性基础往往被忽视。这不仅带来了新的网络安全漏洞,若信任受损,还可能减缓人工智能的长期应用进程。
安全断层
theCUBE Research 的一项新研究发现,尽管大多数组织认为自己在备受推崇的美国国家标准与技术研究院(NIST)网络安全框架下表现强劲,但仅有 12% 的组织表示在遭受攻击后能够恢复所有数据,34% 的组织在过去一年中经历了超过 30% 的数据丢失。
受可靠数据恢复系统保护的关键应用比例

(数据来源:theCUBE Research)
超过 80%:无具体占比数据
51%-80%:无具体占比数据
31%-50%:无具体占比数据
不足 30%:无具体占比数据
数据韧性(即保护、维护数据并从中断中恢复数据的能力)方面的这些差距,正被人工智能模型对数据的海量需求进一步放大。许多专家表示,企业急于从多年来基本无法访问的数据中挖掘洞察,因此构建了大规模的非结构化信息库,却未充分关注安全、访问控制、备份和分类。人工智能模型的 “黑箱” 特性,使得治理不善的数据容易引发虚假信息、数据泄露和篡改问题。
“如果基础数据一团糟,又如何能开展智能体人工智能应用?”theCUBE Research 负责网络韧性、数据保护和数据管理的首席分析师克里斯托夫・伯特兰(Christophe Bertrand)问道。硅谷角度(SiliconANGLE)旗下的市场研究公司将于 2 月 26 日举办人工智能信任与网络韧性峰会,届时将有行业专家、供应商和用户参与。
尽管人们普遍认为人工智能需要高质量、治理良好的数据,但研究表明,人工智能推理数据的治理往往不完善、分类不充分,且很少进行备份。根据 theCUBE Research 的数据,仅有 11% 的受访者备份了超过 75% 的人工智能数据,54% 的受访者备份比例不足 40%。
48% 的受访者表示,不足一半的关键应用受到全面数据恢复解决方案的保护,而仅有 4% 的受访者表示超过 90% 的关键应用得到了完全保护。
智能体的放大效应
随着智能体人工智能进入主流,数据韧性不足的风险将被进一步放大。生成式人工智能应用会像搜索引擎一样,根据提示给出答案,而智能体系统则融入生产工作流,模型之间相互调用、交换数据、触发操作,并在网络中传递决策。错误数据在智能体之间流转时,可能会像传话游戏一样被放大或篡改。
Countly 公司索纳:“人工智能会放大薄弱的数据管道问题”
其他研究也发现了类似的信心差距。德勤(Deloitte LLP)近期开展的《企业人工智能现状调查》涵盖了 3000 多名企业和信息技术领导者,结果显示,74% 的受访者计划在两年内使用智能体人工智能,但仅有 21% 的受访者针对自主智能体制定了成熟的治理流程。
去年秋天,信任管理平台 Vanta Inc. 对 3500 名信息技术和业务领导者进行的调查发现,尽管 79% 的受访者正在使用或计划使用人工智能智能体防范网络攻击,但 65% 的受访者表示其计划使用规模超过了对该技术的理解程度。
高德纳(Gartner Inc.)上月发布的一份报告指出,尽管高管和首席信息安全官(CISO)“都声称重视网络韧性,但由于组织惯性和过时的‘零失败容忍’思维模式,企业长期在这方面投资不足”。高德纳表示,企业在 NIST 框架中关键的响应和恢复阶段表现最差。
这些问题共同构成了一个迫在眉睫的信任危机。董事会和首席信息官一致认为,没有高质量、具备韧性的数据,人工智能就无法大规模部署。然而在许多企业中,用于为人工智能引擎提供支持的推理数据治理不善、分类不一致且很少备份。这使得人们几乎无法验证决策的制定过程,也无法重现和消除下游影响。
企业人工智能应用的障碍,最终可能不在于模型准确性或处理能力供应,而在于能否保证人工智能所依赖数据的完整性、可追溯性和可恢复性。
“人工智能不会暴露薄弱的数据管道,” 分析公司 Countly Ltd. 的首席执行官奥努尔・阿尔普・索纳(Onur Alp Soner)说,“它会放大这些问题。”
合规≠韧性
专家指出,许多企业忽视数据保护的原因有很多。关键原因之一是过度关注合规性,而牺牲了运营卓越性。这正是满足一系列正式网络安全指标与能够在现实世界中断中生存下来的区别。
合规指南规定了政策、控制措施和审计要求,而韧性则关乎运营生存能力,例如维护数据完整性、恢复完整业务运营、重现或回滚操作,以及在系统故障或遭受攻击时控制影响范围。
Info-Tech 公司阿瓦基安:“勾选框式合规” 会产生虚假的信心感。
企业往往将两者混为一谈,但制定计划与在现实条件下测试计划是两回事。“他们会将 NIST 视为控制框架,然后说‘好的,我们有相关政策’,”Info-Tech Research Group Inc. 技术顾问、宾夕法尼亚州前首席信息安全官埃里克・阿瓦基安(Erik Avakian)说,“他们可能确实有政策,但从未对其进行过评估。”
他表示,“勾选框式合规” 会产生 “虚假的信心感”。“我们真的深入测试过这些政策吗?它们真的有效吗?有些框架只是无需实施证明的自我评估,” 这使得首席信息安全官可以实际上为自己的工作打分。
另一个因素是,网络安全传统上侧重于防范入侵,而非控制损害。高德纳指出,这种策略已变得 “成本过高且不切实际”。其研究人员转而建议 “一种新的思维方式,将网络韧性置于优先地位,并减轻不可避免的漏洞造成的损害”。
别人的问题
组织因素也会带来漏洞。数据保护通常属于风险管理职能范畴,与网络安全相互独立。安全专业人员可能会因为认为别人在负责数据保护而产生虚假的自满情绪。
“企业内部由不同团队负责韧性和合规导向的安全工作,导致协调不足,” 福雷斯特研究公司(Forrester Research Inc.)首席分析师布伦特・埃利斯(Brent Ellis)说,“人们认为自己做好的准备与实际准备情况之间存在脱节。”
福雷斯特公司埃利斯:“人们认为自己做好的准备与实际准备情况之间存在脱节。”
此外还有技术因素。人工智能模型的行为与传统软件有着本质区别,带来了传统数据保护措施无法完全解决的复杂性。
传统软件是确定性的,意味着它遵循预定义规则,确保相同的输入始终产生相同的输出。而人工智能模型是概率性的,它们利用统计或习得的估算过程,从训练数据的模式中推断出合理的输出。
“对于解释性或生成式人工智能,你是在让引擎开始‘思考’,这会使其突破限制,以前所未有的方式整合内部和外部数据源,” 国际数据公司(International Data Corp.)全球基础设施研究集团副总裁兼总经理阿希什・纳德卡尼(Ashish Nadkarni)说。
概率性模型无法保证每次都产生相同的结果。确定性系统会通过生成错误来明确表示故障,而人工智能系统则会通过输出看似可信但实际错误的结果来 “静默故障”。
偏离目标
缺失或损坏的数据可能导致模型做出看似合理但实际上完全偏离目标的决策或建议。在大型语言模型中,这些错误表现为 “幻觉”—— 尽管经过多年研究试图将其最小化,但在许多最受欢迎的聊天引擎中,“幻觉” 发生率仍高达 20%。
从最近一次网络攻击中完全恢复所需的时间

(无具体数据占比)
1 天内
2-7 天
8-15 天
16-30 天
超过 30 天
错误仍然令人沮丧地普遍存在。文档处理平台提供商 Parseur Pte. Ltd. 上月对 500 名美国高管进行的调查发现,尽管 88% 的受访者表示对其分析和人工智能系统所依赖数据的准确性非常有信心或比较有信心,但同样有 88% 的受访者表示至少有时会发现源自文档的数据存在错误,69% 的受访者表示错误经常或非常频繁地发生。
智能体网络会呈指数级放大错误。“一个上游数据问题会引发连锁故障,”Countly 公司的索纳说,“如果没有清晰的数据溯源和完整性保障,就无法判断是模型出错、数据出错,还是系统状态本身不一致。”
更多关于数据韧性与人工智能的内容:
企业必须将数据韧性视为核心人工智能服务层。
人工智能驱动的预测分析可保护企业存储免受日益严重的安全威胁。
人工智能驱动的自动化和托管检测服务如何改变网络韧性。
攻击终将发生;最佳策略是保护备份,并通过评估指导数据韧性改进。
有多种方法可以审计模型性能以防范异常,但需要检查输入数据并跟踪模型的推理过程。丢失或受损的数据会使此类故障排除工作无法进行。
“技术栈深处某个库的变更可能毫无影响,也可能导致你突然得到完全不同的答案,尽管表面上看起来没有任何变化,” 第一资本金融公司(Capital One Financial Corp.)机器学习工程副总裁米里亚姆・弗里德尔(Miriam Friedel)说。她表示,可观测性、日志记录和自动扫描支持诊断此类问题所需的取证分析。
数据过载
人工智能还带来了新的数据类别。训练数据为复杂模型提供了学习所需的现实世界背景,通常是非结构化的,且体量庞大,使得分类和传统数据保护措施难以实施。企业很容易对训练数据采取 “全盘纳入” 的策略,将所有数据加载到模型中,让模型自行整理。
第一资本金融公司弗里德尔:即使 “表面上看起来没有任何变化”,你也可能得到 “完全不同的答案”。
但这可能会引发网络安全灾难。“如果你有一个数据库,你知道其中包含什么数据;如果你有一个企业资源规划(ERP)应用,你知道它只会获取与其相关的数据,”IDC 的纳德卡尼说,“而人工智能会导致企业内部和外部的数据蔓延。人们往往没有完全意识到这种蔓延的规模,也不清楚可能有哪些恶意行为者试图破坏数据。”
提示词和推理数据需要记录在上下文日志中,这些日志会记录模型做出决策时所依据的信息。在涉及安全、问责制和可恢复性的场景中,这些记录至关重要。
推理数据是模型用于做出决策的数据,其独特挑战在于,在第三方或云环境中使用时难以对其进行保护。推理数据至关重要,因为它为持续训练提供支持、可能向外暴露,并且可能触发自动化工作流。尽管存在这些风险,许多企业仍不愿费心对推理数据进行分类,导致其难以得到有效保护。
“推理输出很少被视为一等数据,”Countly 公司的索纳说,“一旦触发操作,就无法重现过程。人工智能生成的数据需要像源数据一样进行治理,而不应被视为日志或无用数据。”
“人们对生成式数据缺乏重视,因为它是多种输入数据的汇总,”NetApp Inc. 数据服务高级副总裁兼总经理加根・古拉蒂(Gagan Gulati)说,“原始数据的使用通常有相关规则和法规约束,而生成式数据通常没有。”
如果生成式数据会凭空消失,那倒不成问题,但它往往会留存下来。如果没有适当的控制措施,人工智能模型可能会记住之前的交互,并将其纳入短期记忆。这种递归输出会放大错误并引入新的漏洞。
个人身份信息(PII)问题
例如,用户在提示词中包含个人身份信息后,可能会在数天后的响应中看到这些数据。如果没有适当的防护措施,提示词数据甚至可能成为模型训练集的一部分,并以不可预测的方式再次出现。
NetApp 公司古拉蒂:“原始数据的使用通常有相关规则约束,而生成式数据通常没有。”
人工智能在数据访问管理方面也带来了新的挑战,这是韧性的关键组成部分。企业不愿使用生产数据训练模型,因此会制作副本。“这就产生了数据溯源问题,”NetApp 的古拉蒂说,“数据集离开了安全边界,但所有相同的保护规则都必须适用。”
身份管理公司 Saviynt Inc. 的现场首席技术官大卫・李(David Lee)表示,智能体在数据分类和访问控制方面带来了新的挑战。权限薄弱、权限过于宽泛和废弃账户都会破坏数据韧性,因为所有人工智能系统最终都通过与人相同的身份架构访问数据。
他说,企业需要细粒度的授权层,以确保智能体不会访问其不需要的敏感信息。然而,由于人工智能是一项新兴技术,此类控制措施往往尚未到位。
根据 Saviynt 近期发布的《人工智能风险报告》,在 235 名安全领导者中,71% 的人表示人工智能工具已经在访问核心运营系统,但仅有 16% 的人认为他们对这种访问的治理是有效的。超过 90% 的人表示,他们无法完全掌握人工智能身份,也无法检测或遏制可能发生的滥用行为。
“复杂之处在于,当存在委托模型(即人工智能智能体调用拥有自身权限的子智能体)时,” 李说,“几乎不可能看清各个部分之间的关联、已设置的权限以及谁在授予何种访问权限。”
智能体通过整合多个来源生成新型数据的能力,给数据分类带来了问题 —— 而数据分类是访问管理的必要组成部分。
“假设我有被归类为机密的数据,还有其他被归类为个人身份信息的数据,” 李说,“我的智能体将这些数据整合在一起生成了一份报告。现在产生了新的数据,该如何对其进行分类?”
数据分类是一项缓慢而艰巨的任务,许多企业多年前就已放弃或简化了这一工作,但李认为这种规范正重新受到重视。“我们需要一种三层方法,围绕数据本身、有权访问数据的人员以及他们想要对数据执行的操作来构建,” 他说,“如今的系统并非为此设计。”
为人工智能做好准备
这些因素共同凸显了企业在将人工智能模型从试点推向生产时,必须将数据韧性置于优先地位。大多数观点认为,企业还有很长的路要走。CData Software Inc. 近期对软件提供商和企业中负责人工智能项目的 200 人进行的调查发现,仅有 6% 的人表示其数据基础设施已完全为人工智能做好准备。
Saviynt 公司李:智能体委托可能导致 “无法看清各个部分之间的关联”。
“对于许多企业而言,人工智能仍然是一个黑箱,这也是高管们不愿信任它的主要原因,” 软件交付平台公司 Digital.ai Software Inc. 的产品总监丹尼尔・舒格鲁(Daniel Shugrue)说,“企业在人工智能规模化应用方面遇到的障碍不在于模型,而在于他们不信任为人工智能提供数据、转换数据并依据数据采取行动的系统。”
数据韧性专家倡导所谓的 “人工智能级可恢复性”,这包括了解使用了哪些数据、模型当时处于何种状态,以及确保流程可以重现或回滚的信心。
“韧性的一部分是,当出现问题时,你能够快速理解并追踪问题所在以及如何修复,” 第一资本金融公司的弗里德尔说。
在人工智能时代确保数据韧性需要新的工具和技能组合:
不可变事件日志:系统事件的永久、防篡改记录,确保每一项决策和数据变更都可追溯和审计。
版本化架构:提供可随时间跟踪的结构化数据定义。
端到端溯源分析:展示数据的来源、转换方式及其对模型输出的影响。
可重现管道:支持确定性流程重新执行,以重现模型决策。
影响范围隔离:控制错误输出或操作的影响,防止故障连锁反应。
经过测试的回滚程序:记录在案的方法,可将模型、数据或系统状态恢复到已知良好状态,且不中断业务。
数据留存政策:确保删除冗余、过时和无关紧要的数据,而非将其归档(以免带来污染风险)。
企业人工智能的成功,最终较少依赖新颖的模型架构,而更多依赖于网络韧性、数据保护和运营严谨性等不起眼的规范。能够保证其人工智能模型所依赖数据稳健性的企业,将更有能力将智能体系统规模化应用于核心业务流程;而那些无法做到这一点的企业,将仍停留在试点和概念验证阶段。现在投资于具备韧性的数据基础,是未来获得可信结果的最清晰路径。











评论