杰米·戴蒙如何成为山姆·奥特曼最大的竞争对手
去年 11 月,我们认为摩根大通首席执行官杰米·戴蒙 (Jamie Dimon) 坐拥着一个独特数据的宝库,这些数据永远不会通过互联网进入专有的大型语言模型。因此,他是 OpenAI 首席执行官 Sam Altman 的最大竞争对手,因为他的数据比这些法学硕士的民主化见解更有价值。
我们的前提是,基金会模型公司正在展开一场自相残杀的战斗,追逐通用人工智能(“弥赛亚 AGI”),而真正的圣杯是我们所说的“企业 AGI”——这意味着将 AI 应用于企业内部的专有数据最终将被证明是最有价值的经济努力。今天,我们扩展了这一论点,并假设由专有数据提供支持的代理和企业数字孪生将推动下一波人工智能价值。
在上一集“杰米·戴蒙”中,我们为原因设定了一个框架。在本突破性分析中,我们解释了摩根大通等企业将如何以前沿模型供应商无法做到的方式推动价值。我们将检查我们最初的前提并共享数据,这些数据进一步强化了基础模型供应商面临的挑战,使其成为一项艰巨的业务。此外,我们将解释为什么由数据编程的代理最终将在未来几年为企业提供最大的价值释放。
三波代理
我们将代理进化分为三个不同的波次,如下所示:

消费者代理 – GPT-3/4 时代的 ChatGPT 让我们第一次尝到了个人数字助理的滋味。GPT-5 可能会提供第一个通用的消费级代理,它可以代表用户行事,而不仅仅是聊天。
编码代理 – Anthropic 的 Claude 与 Cursor 配对展示了当您使用强化学习进行后训练到强大的基础模型并将其瞄准软件工程时会发生什么。代码是一个很好的试验场,因为结果是客观可测试的,就像数学问题一样。
企业代理 – 我们相信这是下一个前沿领域 – 即由业务的实时数字孪生提供支持的代理。不是像英伟达公司的 Omniverse 这样的工厂等物理事物的数字孪生,而是企业。这里的景观发生了变化。这不仅仅是更大的模型;我们将解释新的供应商技术堆栈、新的供应商业务模式和新的客户运营模式。价值如此之大,以至于即使是杰米·戴蒙(Jamie Dimon)也拥有庞大的资产负债表和比前沿实验室所能获得的有用数据多几个数量级的数据,也正在踏上山姆·奥特曼的竞争环境。
有了这个框架,让我们来看看为什么从消费者/编码人员代理到企业代理的跳跃不是线性推断,以及杰米·戴蒙 (Jamie Dimon) 能够现实地挑战 OpenAI 的领先地位之前,必须实现哪些新技术和组织层。
代理 AI 三个时代的附加颜色
我们就此主题提出以下补充意见:
正如我们之前所讨论的,戴蒙是企业及其四面墙内拥有的专有数据和专有技术的代理,而前沿法学硕士无法在这些数据和专业知识上进行培训。这就是为什么真正的价值将来自企业将这些数据和专业知识应用于扩展前沿法学硕士或类似的模型,我们将解释原因。
真正的革命是,我们已经从预训练时代的缩放定律(即 ChatGPT 和类似产品所基于的 GPT 模型)转向后训练时代,这是我们开始使用强化学习的地方。强化学习是试错学习的一个奇特术语,对于试错学习,你必须能够从错误中吸取教训。
它首先在软件工程代理中工作,因为代码提供即时、客观的反馈:
您可以运行测试并查看它是否有效 - 您可以编译它。
它适合程序员的工作流程,无需进行重大更改。
因此,这就是企业中代理首先起飞的地方。然后我们的论点是,要超越这一点,我们将需要一种新型技术平台——企业数字孪生。
为了从中获得真正的价值,我们将不得不采用一种新的——不仅仅是在数据所在的基础上采用新技术模型——而是一种新的运营模式,在这种模式下,公司必须围绕端到端的结果进行组织,例如吸引新客户,而不是部门或职能专业化。
供应商影响:
供应商必须提供端到端的以流程为中心的数据平台或数字孪生。这不是传统的数据平台或孤立的应用程序。
看来我们需要开放的模型来使这种试错学习正常工作,而这与前沿模型供应商的商业模式不相容。
因此,我们将需要进行大量更改。而要点是,与今天 ChatGPT 创造和获取价值的时代相比,杰米·戴蒙(作为领先企业的代表)和他将要从这个人工智能时代中提取的价值将需要完全不同的脚手架和商业模式集,就像他这样的客户,以及为他提供服务的供应商。
简而言之,我们相信这种转变——从训练前规模到训练后技能,从孤立的工作流程到以结果为中心的孪生——为企业人工智能的未来十年奠定了竞争格局。
第 1 波:消费者代理
让我们更深入地研究第一波
GPT3.5 上的 ChatGPT 开始了这一切。但 GPT-5 是我们认为 ChatGPT 作为通用消费者代理的真正价值开始的地方。OpenAI 自己的收入预测(下面的红虚线)将从 2024 年的低单十亿美元攀升至 2027 年的 500 亿>美元——许多人认为这条增长曲线威胁到谷歌搜索——我们将拭目以待。

上面的红色标注很有启发性,因为在 GPT-5 级代理从很酷的演示转变为必备的个人助理之前,必须进行警告、技术重新布线和商业模式更改。具体说来:
三十年前,投资者将商业互联网誉为历史上最伟大的合法财富创造。今天,我们听到同样宏伟的声明,即生成式人工智能超越了火、车轮和电力。GPT-5 可能会证明这种夸张的很大一部分是合理的。通过统一多模态推理——语音、视频、工具使用、研究、代码执行——OpenAI 准备推出第一个真正的全栈消费者代理,这是任何历史标准的重磅产品。
但从头条新闻到习惯的飞跃需要多个方面的剧变:
技术基础设施
网络是为人类而构建的;爬虫只是索引页面,以便人们可以阅读它们。我们需要一个重新连接的 Web,以实现自主导航、微交易、新的安全轨道和代理友好的支付流程。
关于每篇文章小额支付的提案正在出现,以便代理商可以合法地实时摄取优质内容。然而,美国的公共政策似乎出于竞争原因(例如中国)而削减了这些提议。
商业模式重新布线
发布者必须从搜索引擎优化转向代理引擎优化。
电子商务目录必须公开代理(而不是眼球)可以解析和作的元数据。
营销从影响人类购物者转变为影响根据政策和偏好规则筛选选项的机器人。
历史先例
在 1990 年代后期,热情领先于宽带建设和可行的收入模式;人工智能在承诺和基础之间也面临着类似的差距。
标题是 GPT-5 可以引发消费者的大规模采用,但广泛的价值捕获取决于重新管道网络和重新货币化内容。这还没有解决企业部署特有的额外障碍,这些障碍具有自己的技术、治理和运营模式需求。
法学硕士的经济学是残酷的
在我们对 GPT-5 过于兴奋之前,让我们先看看残酷的规模经济学。下面的数据讲述了一个大故事。
右上图:那条“缩放律”线(X 轴上用于预训练的计算 petaflops 对数,Y 轴上测试损失对数,这是一种描述准确性和识别更精细模式的能力的奇特方式)稳步向下移动——但每一英寸的改进都需要计算的 PF 日(petaflop-days)数量级跳跃。

让我们来解开上述数字的来源。
在上面的幻灯片上,左轴显示了每代的估计训练成本;右轴绘制相应的测试损耗改进。GPT-3 级模型的 3500 万美元大关是共同的参考点。每一代都需要大约 10 倍到 30 倍的训练 FLOP 增加,但在算法和硬件效率提高之后,总现金支出仍然在每个周期增长约 5 到 10 倍。数字通常看起来较小,因为它们只记录了最后两三个月的生产运行。这解释了 DeepSeek 报告的 600 万美元成本的混乱;该图省略了研究运行、数据消融实验和重启,这些实验甚至在最后一次开始之前就消耗了三到十倍的计算量。
幻灯片的曲线使第二个点变得清晰。每次支出的增加只会带来测试损失的增量下降——更好的预测准确性、更可靠的答案、更精细的模式检测。仅在预训练上保持同步,就已经将单次下一代运行的成本推高至 100 亿美元。在那个水平上,市场无法维持许多参与者,除非他们在基本模型之上添加一个高度差异化的层。即将到来的高质量训练数据瓶颈和激烈的竞争将挤压原始应用程序编程接口访问的任何价格溢价的幅度和寿命。
强化学习可以通过开辟新的缩放向量来解决收益递减定律。推理时间“推理”开辟了扩展的另一个维度。但预训练基础仍需不断推进。这意味着在前沿模型层发挥的资本强度继续呈指数级增长。只要终端市场继续以类似的速度增长,摊销预培训的经济性就有效。但是当市场增长放缓时,当音乐停止时,预培训的成本将看起来像一场音乐椅游戏。
撞上数据墙:数据稀缺和合成数据挑战
到目前为止,我们一直关注计算成本,但我们需要讨论一个同样残酷的限制,那就是我们正在耗尽免费、高质量的人工文本。

上图跟踪了可用互联网代币的“有效存量”(绿色带)与前沿模型消耗的数据集的预计大小(蓝色带)。这两条曲线在 2027-28 年左右相遇——这意味着模型改进的每一个额外点都需要新的策略。
不过,我们应该指出,合成数据很容易用计算机代码生成,因为您可以对其进行测试,因此,合成数据现在包含更多信号。它有效吗?它不起作用吗?你有各种各样的测试,这就是为什么正如我们将看到的,编码代理首先起飞。但是,正如我们将要展示的那样,试图越过这堵数据墙的第一种方法是使用人类生成的推理跟踪,即您基本上可以让不同领域的广泛专家尝试并详细阐述他们的问题解决策略,以找到如何解决特定领域问题的解决方案, 而且这非常昂贵。因此:
模型供应商将看到他们用于训练数据的销售成本大幅上升。根据公共政策的态势,他们可能必须付费才能获得专有发布者数据的许可。正如我们在最近的亚马逊/纽约时报交易中看到的那样,这些交易已经开始。这是众多事件中的第一个还是高水位线还有待观察。
更重要的是,模型供应商将不得不从更多领域的人类专家那里获取更复杂的问题集和“推理痕迹”。这就是 Scale.ai 等数据供应商专门从事采购的领域。
Scale AI 的 Alex Wang 表示,下一个突破取决于人类注释的思维链,而不仅仅是更多抓取的文本散文。在该深度进行注释既昂贵又缓慢。这是下一个瓶颈。这种类型的数据稀缺重塑了预训练前沿模型的经济性。据报道,这就是为什么 Meta 斥资 ~150 亿美元购买 Scale.ai 专家网络 50% 的股份。
Wang提出的一个关键观点是:“数据生产将是未来人工智能系统的命脉”,他强调了人的因素——这就是 Meta 斥资 150 亿美元收购 Alex 的原因。
Alex Wang 评论的一些附加背景:数据生产与香料生产非常相似;它将成为未来人工智能系统的命脉。最优秀、最聪明的人是命脉的关键来源之一,但专有数据同样重要。仅摩根大通就拥有数百 PB 的数据,而 GPT-4 的训练数据不到 1 PB。企业和政府拥有的专有数据比输入前沿模型时要多几个数量级,而这些数据库可以为下一波真正的精英系统提供动力。
悬而未决的问题是合成数据的作用。最合理的路径是人类与人工智能的混合生成:人工智能处理批量创建,而领域专家(具有深厚推理能力的人)则注入高保真更正和见解。混合人类-人工智能数据是实现未来模型所需的极致质量和细微差别的唯一途径。
Meta 报道的 Scale AI 交易价值 150 亿美元,凸显了这一现实。此次收购与其说是关于工具,不如说是联系 Alex Wang、一小群专家以及 Scale 跨多个领域的专家标签师网络。人类专家推理痕迹已成为前沿实验室的新瓶颈。实际上,这些公司正在呼吁提供爱国数据,以便其他人都能受益,因为如果没有这些经过人类验证的痕迹,大型语言模型将停滞在目前的上限。
“数据共产主义”
Alex Wang 评论中有趣的部分是,他基本上是在呼吁各个领域的专家为造福人类“贡献”他们的专业知识。Scale 为这些专家的时间支付了费用,但仍然是小时工资劳动。

半开玩笑的标题,“各尽其能,各取所需”是卡尔·马克思经济哲学的核心。如果你眯着眼睛看,这听起来很像 Alex Wang 的提议:主题专家为模型训练贡献他们的知识,造福人类。
在以 150 亿美元收购后,亚历克斯·王 (Alex Wang) 可能成为历史上最富有的共产党人。
为什么编码是一个如此强大的用例
在企业中,有一个非常具体的用例已经起飞,并给出了支持前沿模型训练的各种迹象。为什么编码如此受欢迎?为什么软件工程代理是企业中的第一个杀手级应用程序?
让我们深入了解一下。
下图顶部的面孔是 Anthropic PBC 首席执行官 Dario Amodei,他的 Claude 模型为 Cursor 产品提供支持——软件工程代理。Cursor 只是许多软件工程代理中的一个典型例子。

我们仍然处于相同的智能随时间变化曲线上,在 ChatGPT 消费者激增之后,我们看到一个标记为“Claude + Cursor SWE Agents”的新阶梯函数。左边的收入表——发布时为 100 万美元,第 12 个月为 1 亿美元,第 24 个月为 3 亿美元,第 30 个月为 5 亿美元——说明了采用速度有多快。
是什么让编码特别适合早期企业代理的成功,在我们将这种模型推广到反馈信号不那么清晰的财务、供应链或客户服务领域之前,还存在哪些障碍?下面的评论提供了答案:
试错学习(正式术语的强化学习)解释了软件工程代理的突破性成功。与消耗 15 万亿个数据令牌的基础模型不同,编码代理生成自己的数据。它提出解决方案,运行测试并立即从通过或失败的反馈中学习。该循环提供无穷无尽的合成数据和内在奖励信号,无需大量专有数据集。同样重要的是,该工作流程可以整齐地融入成熟的开发人员工具中,因此采用无需进行组织手术。
这些条件使软件工程成为人工智能代理的天然滩头阵地。Cursor 是标志性的参考点,但数十种类似的工具正在快速扩展,几乎所有工具都被 Anthropic 的 Claude 前沿模型作为首选引擎。大多数产品都专注于编写全新的代码或语言之间的翻译;遗留代码库的大规模重构是一个更难的问题,并且在很大程度上仍未得到开发。软件和数学领域的成功不会自动移植到其他企业领域,在这些领域中,等效的高保真反馈循环更难构建——我们将在后续幻灯片中探讨这一挑战。
量化软件工程和数学为何大放异彩
让我们更深入地挖掘为什么 SWE 和数学是这样的好例子。下图跟踪了过去五年中一篮子“智力”基准(小学数学、竞争性数学、软件工程任务套件、多科目考试)的准确性。Y 轴是基准精度;X 轴是日历年。一切都蜿蜒向上,直到 2024 年的某个时候,然后红色框显示出近乎垂直的激增。发生了什么变化?在已经很强大的基础模型之上进行训练后强化学习。

在预训练时代(基本上到 2024 年年中),数据效率并不高,依赖于抓取大量但有限的免费互联网文本库。一旦这些井开始干涸,进度就会递减回报。拐点出现在 2024 年底,当时训练后时代已经到来。试错学习,即强化学习,允许模型生成候选输出,自主验证它们,并根据正确或错误的信号更新权重。数学和编码的基准测试几乎立即做出反应,以近乎垂直的速度攀升。
该机制很简单:代理检查自己的工作;如果测试通过,梯度会强化该解决方案。如果失败,则模型进行调整。该循环无需数万亿个新代币即可带来巨大的收益。这两个领域都提供了一个直接的、明确的奖励信号——代码编译或不编译,或者通过单元测试或未通过;数学要么是对的,要么是错的——所以智能体可以作为客观的验证工具,重试和学习。这种紧密的循环意味着你不需要另外 10 万亿个预训练数据令牌;你只需要一个可验证的奖励。
但该捕获物在图形右侧标出。该秘诀尚未推广到法律推理或财务预测等,在这些预测中,基本事实是模糊的、延迟的或埋没在人类的判断中。
推广该技术仍然是一个悬而未决的挑战。两条路径正在出现:
难以验证的领域 – 答案缺乏二进制通过/失败的领域必须依靠第二个 LLM 来批评输出,评估正确性的各个方面并提供结构化反馈。这种方法是可行的,但要困难得多。
新的可验证领域 – 能够提供客观奖励信号的领域,例如在高保真数字孪生中建模的领域,应该会产生与数学和编码相当的进步。数字孪生的讨论将在后续部分中进行。
关键的一点是,一旦一个领域提供了自动验证器,训练后的效率就会爆炸式增长。现在的竞赛是识别或构建软件和数学之外的可验证环境。
可能会有一种生成合成数据的新方法,可以让我们克服数据瓶颈和客观可验证奖励的挑战——这是在王兑现支票后不久出现的。它与试错学习(一个花哨的术语是强化学习)和模型有关,这些模型可以在没有人类参与的情况下验证主观而非客观的答案。换句话说,我们可能有办法绕过人类专家注释者详细说明他们的推理,从而得出正确的答案。
GPT5 或不久之后的升级似乎将尝试生成专家问题、答案和推理轨迹的某种组合以获得答案。另一个模型,就像老师或验证者一样,将对正确答案和推理痕迹进行评分。这样,模型可能能够像学习数学和编码一样,走上陡峭的学习曲线,获得更主观的答案。
软件工程是超越消费者代理的下一波浪潮
凭借可验证的奖励,SWE 代理的改进速度比通用底层模型快得多。一旦你将强化学习注入到可靠的奖励信号中,进步就会呈指数级增长。
在下图上,Y 轴绘制了“任务长度”(想想:人类需要的挂钟工作)。平缓的绿色斜率(七个月的节奏)被右侧的蓝色趋势线所掩盖——每 70 天将时间范围减半。
左图(METR 数据)。在通用代理基准测试中,人工智能在没有人工牵手的情况下可以完成的任务长度大约每七个月翻一番。GPT-2 可以回答一个琐事问题;GPT-4o 可以花费 ~15 分钟自主优化定制芯片的代码。

这张幻灯片隔离了代理自我改进的核心问题。对于广泛、松散验证的任务,唯一的提升来自基本模型的通用增益和偶尔的评估周期——大约每七个月自动任务长度就会增加一倍。相比之下,软件开发代理在运行时发出硬奖励信号:他们要么通过单元测试,要么不通过。这种可验证的反馈推动强化学习,每 70 天使任务复杂性翻一番。这里的指标很简单,即代理可以在没有人工干预的情况下运行多长时间。更尖锐的斜率证明,硬的二元奖励信号可以将学习速度提高一个数量级。这是重要的要点。
探索支撑模型的残酷经济学
在加冕一个模型之王之前,让我们先看看代理人工智能产品兴起背后模型的残酷经济学。在下图中,Y 轴是综合基准分数;每个彩色步骤代表一个新的肖像权授权书。暗线突出了 OpenAI 的领先模型,该模型本身会发生变化(每个方点都会发生变化),以及竞争对手的快速追赶(其他彩色线)。
阶梯图绘制了过去 24 个月中来自 OpenAI、Anthropic、Google、Meta、DeepSeek、阿里巴巴等的前沿模型的独立“人工智能智能指数”。
垂直跳跃(红色 CAG 标注)标志着竞争优势差距——一个版本领先于其他版本的飞跃程度。
水平线显示 CAP(竞争优势期)——在竞争对手追赶之前领先优势持续多长时间。
最突出的是这两个维度都变得多么小。GPT-4o 处于领先地位,但在几周内,DeepSeek R1 或 Gemini 3 缩小了差距。API 之间的切换成本是用几行 Python 代码来衡量的,因此 CAP 会随着每个版本的发布而缩短。换句话说,你可以在计算和数据上花费 10 亿美元,只是为了在市场将你的优势降低到零之前享受六周的定价保护伞。
关键是,在前沿训练运行上花费 100 亿美元和多年时间不再保证持久的优势。当新模型登陆的那一刻,竞争领先优势几乎可以像新的消费电子产品周期一样迅速消失。与制药行业不同——专利保护确保了十年的排他性——模型训练没有可比的护城河。
当前的竞赛围绕着越来越大的计算集群和渐进式算法调整展开。任何拥有足够资本的公司都可以获得硬件规模;算法见解通过开放研究和员工流动迅速传播。专有的训练数据有帮助,但它只是一个组成部分,很少是决定性的。为了实现巨大的竞争优势差距和持久的竞争优势期,游戏规则必须改变。下一个时代将需要一个完全不同的数据基础,一个能够赋予持续、可防御优势的数据基础。这个基础就是以下部分中讨论的企业数字孪生。
为了戏弄最后一部分,Jamie Dimon 和任何其他可以将其数据建模为运营数字孪生的企业都可以训练具有非常高的 CAG 和持久 CAP 的专有代理。所有的资本支出可能都投入到六个或更多的前沿实验室,但可持续的差异化将在于这些企业。
Messiah AGI 的定价模型
现在让我们探讨一下这种动态如何体现在底层前沿模型的定价模型中。下图说明了这一点。这就是这些优势窗口缩小背后的杀手锏:代币价格处于自由落体状态。Y 轴是每百万个代币的对数尺度价格(从 100 美元到亚美分)。X 轴跨度为 2021 年 10 月至 2025 年 4 月。每条对角线都显示了连续的车型发布,每隔几个月就会降低一个数量级的价格。
因此,每百万个代币相对于发布日期。每条彩色趋势线都是不同的功能层 - GPT-3.5 类(青色)、GPT-4 类(粉红色)、GPT-4o-plus(蓝色)。无论级别如何,价格都在呈指数级下降:
随着每一代新车型的出现,坡度都变得越来越陡
GPT3.5 Turbo级车型价格每年下降9次
GPT4 类模型价格每年下降 40 次
GPT4o 类模型的价格以每年 900 次的速度下降。

换句话说,你可以在 GPT-6 训练上燃烧 100 亿美元,并观察市场在一个季度内以一小部分利润重新定价该产出。为 API 的客户投入最低的转换成本,您就会明白情况。关键是,打包的代理——与专有数据和工作流程上下文捆绑在一起——是我们认为持久经济性将存在的地方。
API 定价的加速崩溃与建立在基础上的产品的经济性截然不同。风险投资正以前所未有的速度涌入前沿实验室。民族国家基金正在为国内模式工作提供资金,中国实验室正在激增,知名参与者——埃隆·马斯克(Elon Musk)就是其中之一——正在争先恐后地加入竞争。与 90 年代末互联网泡沫的相似之处是不容忽视的——数百亿美元的人追逐越来越像海市蜃楼的东西。
如今,消费者代理的桂冠已经掌握在现任领导者手中,领先的 API 位置属于 Anthropic。持久的差异化不会来自另一轮资本密集型模型训练;它将来自做一些真正不同的事情。这种必要性迎来了下一个时代,在这个时代,优势转移到差异化的数据基础和特定领域的代理平台。
第三个时代:企业代理
让我们回到人工智能的三个时代。
我们已经绕了一圈:消费者聊天机器人让我们开始了,编码代理被证明是一个飞轮,但在我们看来,企业代理才是真正的资金和长期护城河的所在。想想三个离散时代的轨迹,映射在你整集看到的曲线上:
预训练时代——消费者代理。ChatGPT 展示了该产品的强大程度,但底层模型 API 的收入受到代币价格暴跌和低转换成本的限制。
后训练时代——编码代理。Claude-plus-Cursor 在可验证的输出上验证了 RL,每 70 天将任务复杂性翻一番,并将年度经常性收入推向新的规模。
数字孪生时代——企业代理。

核心要点是人工智能是由数据编程的,真正的持久差异化将来自专有数据。将摩根大通视为任何先进企业的替代品。初步估计其私有语料库约为 150 PB,已经是用于训练 GPT-4 级模型的半 PB 至 1 PB 的数百倍。最近的数据表明,该银行可能会保持在艾字节的数量级。然而,交易量本身并不是故事;这是数据建模以代表日常运营的方式。企业数据密集、高信号,如果组织得当,比为前沿模型提供信息的广泛、低信号抓取要丰富得多。
释放这种价值需要几个转变:
掌握强化学习:试错循环,能够持续改进实时业务任务。
新的数据基础:跟踪人、地点、事物和活动的数字孪生。这种以流程为中心的模型突破了六十年的应用程序和数据孤岛;它不仅仅是一个更大的湖泊。
开放式型号。早期证据表明,当底层权重可访问时,强化学习效果最佳,这一要求与大多数前沿实验室的封闭 API 商业模式相冲突。米拉·穆拉蒂 (Mira Murati) 的思维机器 (Thinking Machines) 的努力似乎是调和开放性与商业可行性的一条道路。
这些元素将引发新的上市运动、新一代应用程序平台供应商、改进的技术堆栈,并最终为采用它们的企业带来组织和业务模式的变化。
设想“企业通用人工智能”
让我们深入研究一下企业 AGI 的实际面貌。下面是许多人用来描述代理人工智能要素的经典图表——但在我们看来,缺少为企业提供动力的关键部分。

大多数代理图看起来都是一样的——左边的工具——日历、计算器、代码解释器、搜索;右边的认知模块——计划、反思、自我批评、思维链、子目标分解;顶部的内存堆栈;底部有一个动作端口。整个画面都是以算法为中心的,因为这是计算机科学研究人员的奖励。数据几乎不会出现,但在企业中,数据就是一切。
这个特殊的图表——借用了斯坦福大学最近的一次计算机科学讲座——省略了实际创造价值的组成部分——环境或世界模型。代理只能通过与其环境交互并接收有关结果的反馈来学习。在学术环境中,这种遗漏是事后才想到的;在商业环境中,它是玩具和可以转移收入、成本或风险的系统之间的区别。
主流智能体思维中缺乏一流的数据层,这凸显了为什么企业智能体仍然是一个未被充分探索的前沿领域。这种颠覆正让整个行业面临着面对,但很少有人承认这一点,因为对话是由算法英雄而不是数据现实主义主导的。
游戏示例具有指导意义
让我们从代理开始的真实模型中提取一些示例。
在我们对企业数字孪生这个词进行太多自由之前,记住对人工智能研究人员来说重要的第一个孪生是在游戏中看到的。DeepMind 的 AlphaStar 学会主宰《星际争霸 II》不仅因为它的模型架构很神奇,还因为整个游戏环境——单位、资源、时间和战争迷雾的 4D 地图——被曝光为一个完美的、实时的、真实世界的模型。
在下图中,我们在 X 轴上显示了匹配评分或 MMR 百分位数,在 Y 轴上显示了技能水平。蓝色曲线是人类从白银到特级大师的进步;红点是 AlphaStar 突破最高百分位数——通过强化学习数字孪生发现了人类从未尝试过的策略。

关键的见解是将游戏世界中的人、地点、事物和活动映射到企业内部的相同四个维度——人、地点、事物和流程。传统的数据平台提供静态快照,即万花筒视图。代理需要更丰富的动态表示,以捕捉作如何在整个企业中产生涟漪。当代理修改流程中的某个步骤时,它需要地图来跟踪对下游人员和工作流程的影响。
强化学习首先在已经包含此类世界模型的环境中蓬勃发展。DeepMind 的《星际争霸》AlphaStar 和 OpenAI 在 Dota 策略游戏上的工作就是典型的例子。每个环境都提供了持续的、可验证的奖励——测试战略选择和最终输赢结果的中间信号。这些条件使代理能够快速迭代并改进。
同样的原则也适用于企业。通过构建四维数字孪生(人、地点、事物、流程),企业可以提供代理学习、适应并最终在复杂运营中推动可衡量结果所需的反馈循环。AlphaStar 和 Dota 的经验教训构成了这种更高级的企业级实施的蓝图。
如果一个代理可以利用合成世界模型来击败 99% 的职业玩家,想象一下当“地图”是银行的数字孪生或供应链的实时模型时,它能做什么。但这也意味着企业(而不是供应商)必须拥有并策划世界模型,以便代理可以通过可验证的奖励来学习。关键是,AlphaStar 的经验教训将转化为金融、医疗保健和制造业,以及任何具有数字孪生的东西。
Minecraft 所学技能示例

Minecraft 是下一个参考世界模型。在航海者号项目中,环境比《星际争霸》更加开放。代理首先学习如何制作简单的石器,然后使用这些工具构建基本结构。随着能力的提高,它发现了如何锻造更先进的工具,每一项新功能都会解锁更广泛的任务。随着时间的推移,代理会积累技能并扩展其可以使用的工具集。这种渐进的、自主的技能获取至关重要,因为每一种新能力都会丰富环境,进而为进一步学习提供更丰富的反馈。这种模式——学习一种工具,用它来创造价值,学习下一个工具——为构建企业世界模型提供了一个重要的模板,在这种模型中,代理不断扩展自己的行动空间。
没有数据的算法 = 代理失败
现在让我们真正尝试加倍强调数据的重要性。
每个关于人工智能的头条新闻都归功于算法——AlexNet、Transformers、RLHF、新的推理堆栈——但这张幻灯片的右侧提醒我们,每一项突破实际上都是由一个新的数据集时代引发的。
算法 | 数据集 |
亚历克斯网 (2012) | ImageNet – 包含 14 M 张照片的标记语料库 |
变形金刚 (2017) | 网络爬虫 – 大规模抓取数万亿个令牌 |
RLHF 聊天机器人 (2022) | 奖励模型数据 – 人工排名的响应 |
推理代理(现在) | 企业孪生 – 可验证的、特定于领域的世界模型 |
杰克·莫里森 (Jack Morrison) 最近在 Latent Space 播客上强调了一篇博客文章,强调了一个反复出现的盲点:每个人都专注于算法突破,而忽略了隐藏在众目睽睽之下的数据集。莫里森勾勒出推理时代,并指出代理将从验证者(数学计算器、编译器和代码单元测试)中学习,但关键数据集框基本上是空白的。数据集是显而易见的。每个组织都在或将要构建一个平台,以捕获其运营的越来越大的数字孪生。这对孪生——人、地点、事物、流程——是巨大的、高保真语料库,将为企业级推理提供动力。
将企业代理与数字孪生连接起来
现在让我们在定义企业代理时将企业代理与数字孪生连接起来。
我们已经从消费者聊天上升到编码/SWE 代理——下面的幻灯片显示了这一切在公司内部的运作方式。Palantir 的图表在右下角突出显示了端到端供应链孪生;左侧的红色标注突出显示了馈送代理箱的 RL 反馈箭头。度量树说明了“发生了什么”如何汇总到“我们应该做什么?
考虑三个协同工作的层:
安装数字孪生——如此处所示的 Palantir 原理图——只是第一步。将这种表示转化为代理学习的引擎是度量树。与传统的商业智能仪表板不同,在传统的商业智能仪表板中,关键绩效指标位于孤立的表或手工编码的公式中,指标树将学习的分层图中的每个度量链接起来。更改一个节点(例如,授权产品退货),树会揭示客户支持满意度、现有库存和现金流指标之间的涟漪。双胞胎越富有,这些关系的保真度就越高。
代理位于此结构之上,并动态选择与分析意图相对应的工具:
发生了什么事?— 孪生上的 SQL 查询
为什么会这样?— 业务规则执行和图推理
接下来可能会发生什么?— 预测性机器学习
我们该怎么办?— 规范性机器学习
如果树缺少指标,代理会添加一个指标——就像《我的世界》中的航海者号如何学习新工具和技能,然后将它们反馈到环境中一样。每个新指标都成为一种工具;每一个成功的动作都成为一种技能;两者都流入孪生,迭代地扩大其范围。结果是一个自我强化的反馈循环:智能体的动作丰富了符号模型,而丰富的模型反过来又提高了智能体的决策。双胞胎不必在第一天就完美无缺;它与代理能力同步增长。
新的企业架构正在兴起
让我们看看这将如何影响企业架构。
下图建立在我们之前的工作基础上,并将其整合在一起。它还回答了这样一个问题:谁在真正构建业务的实时数字表示?

该图重现了 Breaking Analysis 和 Services-as-Software 中经常使用的分层堆栈。
紫色 – 参与系统。BI 参与者(Tableau、Hex、Sigma、Power BI)必须通过指标和维度将业务上下文注入平台。
绿色 – 智能系统。这就是数字孪生层,最有价值的房地产。争夺 4D 地图的供应商包括 Palantir、Celonis、Blue Yonder、Salesforce Data Cloud、RelationalAI、ServiceNow 和 Databricks(愿望)。无论谁在这里硬连接业务逻辑和技能,都会为其他人设定规则。
黄色 – 代理系统。一旦孪生上线,代理就会致电它寻求答案并通过它路由回写,确保每个作都受到受监管的策略。
橙色 – 治理。策略和世系跨越堆栈。
蓝色 – 数据基础设施。Snowflake、Databricks 和超大规模企业都坐在这里——至关重要的管道,但随着价值向上移动,利润压力也越来越大。
这种模式与信息技术的历史相呼应:每个新的抽象层都包含下面的抽象层。下层不断创新,但一旦上层决定公开哪些功能,就会失去基于功能的差异化和定价权。传统数据平台捕获字符串的快照;以指标为中心的平台将它们升级为事物的快照。绿色层更进一步——捕获流程——弥合了 60 年的应用程序和数据孤岛。
竞争者快速浏览:
Palantir 提供了丰富的本体——强大但要求很高,是那些能够使用它们的人的终极工具集。
Celonis 捕获数千个流程变体的现状,然后打包优化,以便客户避免手动构建每个流程。
Blue Yonder 提供随时可用的端到端供应链模式。
Salesforce 已经对客户流程进行了建模,并打算远远超出这一目标,收购 Informatica 强调了这一目标。
RelationalAI 引入了一个具有电子表格级可访问性的知识图谱平台;它的声明式模型允许业务用户直接参与定义逻辑。
ServiceNow 正在组装一个工作流数据结构——另一种面向流程的方法。
Databricks 将数据智能称为存在主义,并计划超越指标和维度,转向完整的流程知识。其先进的代理开发工具将需要更丰富的数据智能或与上述供应商的合作伙伴关系才能发挥其潜力。
保证金和控制权将累积到捕获流程和提供代理的层;数据基础设施虽然不可或缺,但却成为其背后成本优化的基础。
分叉的企业软件世界
现在让我们关注企业软件如何分裂成两个世界。

想象一下最近邦德电影中结冰的湖面场景:拉米·马利克饰演的反派毫发无伤地站在光滑的水面上,而一名潜水员则在下面寒冷的水中挥舞。这个比喻捕捉到了企业软件如何分裂成两个不同的世界。
冰之上是黄绿色的领域:参与系统、情报和代理系统。这里的供应商从实时数字孪生中学习业务,并推动基于结果的定价。差异化很高,企业本身最终将获得很大一部分价值,支持供应商也参与其中。
冰层之下是数据平台、存储格式、图形处理单元和其他基础设施。除非供应商拥有近乎垄断的杠杆率,否则公用事业费率的定价趋势——英特尔公司曾经这样做过,英伟达现在可能会这样做,超大规模企业可能会在现货实例上保持一个人为的保护伞。历史表明,这些雨伞会随着时间的推移而倒塌,使得在这一层脱颖而出变得更加困难。
该行业正在相应地保持一致:冰上层的参与者专注于建模的商业环境和更高的利润经济,而下层的参与者则面临着越来越大的商品化压力。战略选择是晋升到以结果为导向的层级,或者为基础设施壕沟中利润率的收紧做好准备。
蓬勃发展的企业将重新构想其业务:不铺平牛道
讨论又回到了一个结论:拥有连贯的高信号企业数据是下一波人工智能价值捕获的决定性因素。实验室可能仍然主导着主要模型发布,但这些模型越来越依赖只有大型组织才能拥有的专有地面实况数据。

在上面的视觉效果中,Sam Altman 锚定了左边——世界著名的粉底模型。Amodei 位于中左翼,证明了对领域反馈的后期培训可以产生有意义的 ARR。中右翼是每个人都在追求的奖品。在我们看来,企业的实时、可验证的数字孪生在最右边由戴蒙代表,他是银行业最深层交易账本的管理者,他完全有能力将孪生武器化,并在保证金和护城河上挑战模型实验室。
关键外卖
构建和维护数字孪生(人、地点、事物、流程)的企业最适合收获人工智能利润池。
这种转变需要的不仅仅是技术;它需要围绕端到端的客户成果进行重新组织。对于银行来说,基准可能是尽快在合规方面入职和了解客户。
这种变化类似于将白领工作从手工艺生产转移到装配线。组织重新设计和数据建模齐头并进。
评论