马谡王平智能体(Agent)共赢街亭(一)

作者：高焕堂时间：2026-03-31 来源：

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

1. 前言：让后悔变成预见

回顾本专栏刊登过的《迈向决策式AI：提供反事实的建议》文章，曾经提到了：反事实思考(Counterfactual Thinking)使人们能够探索最初可能没有考虑过的路径和解决方案，能帮助人们以不同的方式看待事物，从而带来创造性的发现。在本文里，就拿家喻户晓的<马谡失街亭>的历史故事为例。依据史书记载，魏太和二年，诸葛亮(即孔明)北伐，街亭为重要咽喉，诸葛亮派马谡带领诸军防守，对抗张合。马谡违背诸葛亮节度，放弃守城，改为扎营于山顶，且不听副将王平的规劝。魏将张合包围山顶，切断水源，大举进攻，蜀军溃散，街亭失守。诸葛亮被迫撤军，北伐终止。马谡失守后，诸葛亮深感任人不当，自请降职，并追究马谡之责。

那么，如果在战事爆发之前，孔明有机会触发其反事实思考，而<预见>更多可替代的策略方案，就能大幅降低孔明的<后悔>(诸葛亮深感任人不当)机会了。例如，可能的替代方案之一是：让王平当主将，并由马谡担任总参谋(副将)。或许这个替代方案真的让孔明的<后悔变成预见>。于是，就来设计核心的智能体角色(图-1)：

图-1

虽然历史的事实不能重演，但是在AI智能体(Agent)的虚拟环境中，却能针对不同的反事实思考方案来进行模拟演练，然后观察各种可能方案的结局。这样的决策式AI能够协助决策者(如孔明、马谡)，来大幅降低决策风险、提高胜率。于是，基于史书里的<马谡失街亭>故事题材，将可以打造出一个虚拟的<马谡王平智能体(Agent)共赢街亭>系统(图-2)。

图-2

在人类历史上，许多伟大的决策者，都曾留下相似的感叹：「如果当时早知道……」。这句话，其实就是<后悔>。历史中充满这样的时刻：用人不当、战术失误等。决策者往往是在事件发生之后，才知道哪条路才是更好的选择。在 AI智能体的协同决策中，这种与所发生事实相反的事后之明，通称为：反事实思考(Counterfactual Thinking)。

这种思考能力，是人类创新力的重要来源之一。它能让人们重新检视过去的决策，并在未来做出更好的选择。然而，人类的大脑有一个限制：我们只能想象少数几条替代路径。但现实世界的决策空间，往往是巨大而复杂的。于是，大多数的「更好选择」，往往在历史中永远没有被看见。

此时，AI的GNN(图神经网络)模型能从KG(知识图)里探索出潜在的反事实连结(Counterfactual Link，简称：CF_Link)，就有可能协助Agent获得<预见>，并进而触发人们的反事实思考，而激发人类的创造力(图-3)。

图-3

在这AI智能体的演练中，战争爆发之前，GNN就从孔明KG探索出CF_Links，提供给王平(Agent)和马谡，让它们可以看到不同决策路径(如依城据守、山上扎营、兵分二路)的模拟结果。那么，马谡和孔明就不必在战后才后悔了，因为可以在战前就预见。

２. 智能体决策路径的模拟

在本文里，所采取的智能体开发流程，包含三个阶段：

u 第一阶段：让 AI Agent (王平)长出策略智慧。

u 第二阶段：训练LoRA助手，让LLM(马谡)入乡随俗。

u 第三阶段：于是Agent和LLM + LoRA双方协同合作，共赢街亭。也如同喜玛拉雅山的雪巴人与登山者双方协同一齐登峰。

其中的第一、二阶段部分，采用三国演义故事的角色来说明，所以称之为：孔明模式。而其中的第三阶段部分，则采用雪巴人协助登山者一齐登峰来说明，所以称之为：雪巴人模式(图-4)。

图-4

基于这两项众人都很熟悉的典故，作为通俗的比喻，可迅速领会智能体协作模拟的规划步骤。

A、先以孔明模式练兵

Ø 以 KG 为战略知识，

Ø 以 FSM + DT 为天地规则，

Ø 以 LLM 为总参谋，

在人机双养与兵分二路之中，慢慢养成一位真正熟悉本地、能掌决策、会在场域中行走的 Agent。其中，以 KG 作为孔明的战略知识，并以 FSM(状态机) + DT(数字孪生)作为天地地势与场域规则。再聘请一位总参谋，也就是 LLM（马谡）。在这样的架构下，一方面培育出真正熟悉本地、能掌行动决策的王平（Agent）。

接着，也透过 SFT(监督式微调)，训练出懂在地规矩、能辅助解说与参谋的助理参谋（LoRA模型）。这一环节的重点是：先把兵练好，先把主将与副将的角色养成。

然后，再进入雪巴人向导模式：由 Agent 担任登山者，LLM + LoRA 担任雪巴人与副将，三者一起出征，最终目标是协力登顶圣母峰。

B、以雪巴人模式出征

接着，进入雪巴人向导模式：由 Agent 担任登山者，LLM + LoRA 担任雪巴人与副将，三者一起出征，最终目标是协力登顶圣母峰。

Ø 让 Agent 成为登山者，

Ø 让 LLM + LoRA 成为雪巴人向导与副将，陪它一起前行、一起解说、一起面对风险、一起逼近山顶。

简而言之，孔明模式练兵，雪巴人模式出征。主将掌决策，副将补智慧；知识养 Agent，Agent 也养知识。于是，AI 不只会走，还会懂、会说、会陪走、会共赢。先养成王平与助理参谋，再让 Agent、LoRA、LLM 携手登顶圣母峰。这是一条完整的工业 Agentic AI 养成之路。其中的关键点不是谁取代谁，而是主将、总参谋、助理参谋协作出征。

C、真正进入战场

在进入真实战场后，同一位总参谋(LLM)，可以透过不同 LoRA 分身，陪伴不同军事队伍的指挥官(Agent)；并在各自场域中，协助理解候选策略、提示风险方向、强化人机协作，最终帮助Agent所追求的整体战术效益更稳、更高。于是，同一个 LLM 可透过不同 LoRA，陪不同 Agent 进入不同战区。由Agent 掌决策，LLM 协助理解、帮助探索、提共解说，最终共同放大整体的战术效益。亦即，总参谋一人，分身多路；主将各自领军，副将各擅其场，最终让候选更清、风险更明、效益更高。

其中，Agent 负责真正的行动决策与战术执行；LLM + LoRA 则负责理解行动方案(Rollout)、解说局势、协助理解候选策略，并放大 CF_Links 的风险提示与探索价值。于是，在 KG、DT、Event 的外围压力与场域条件下，整体协作就能把 Agent 所追求的最终战术效益推向更高水平，完美实践智能体决策路径的模拟。

3. 结语

以 KG 为孔明的战略知识，以 FSM + DT 为天地规则，并聘请总参谋 LLM（马谡），逐步培育出熟悉本地、能掌决策的王平（Agent），以及懂在地规矩、能辅助解说与参谋的助理参谋（LoRA）。接着，再进入雪巴人向导模式，由 Agent 担任登山者，LLM + LoRA 担任雪巴人与副将，三者一起出征，最终目标是协力登顶圣母峰。

简而言之，这套葵花宝典的核心是：FSM + KG 兵分二路，透过人机双养，培育会自主决策Agent。进而，藉由Agent + LoRA(LLM)协同合作，让登山者与雪巴人一起登峰。这可比喻为：王平掌握行动策略，马谡补语义，LoRA助在地；孔明定知识，天地映场域，司马懿施事件——多方协作，以虚拟的<马谡王平智能体(Agent)共赢街亭>系统，来观察后悔变成预见的美好效果。

在下一集里，将继续说明和演示上述孔明模式与雪巴人模式的实施细节。

新闻中心

马谡王平智能体(Agent)共赢街亭(一)

评论

相关推荐

技术专区