马谡王平智能体(Agent)共赢街亭(一)
1. 前言:让后悔变成预见
回顾本专栏刊登过的《迈向决策式AI:提供反事实的建议》文章,曾经提到了:反事实思考(Counterfactual Thinking)使人们能够探索最初可能没有考虑过的路径和解决方案,能帮助人们以不同的方式看待事物,从而带来创造性的发现。在本文里,就拿家喻户晓的<马谡失街亭>的历史故事为例。 依据史书记载,魏太和二年,诸葛亮(即孔明)北伐,街亭为重要咽喉,诸葛亮派马谡带领诸军防守,对抗张合。马谡违背诸葛亮节度,放弃守城,改为扎营于山顶,且不听副将王平的规劝。魏将张合包围山顶,切断水源,大举进攻,蜀军溃散,街亭失守。诸葛亮被迫撤军,北伐终止。马谡失守后,诸葛亮深感任人不当,自请降职,并追究马谡之责。
那么,如果在战事爆发之前,孔明有机会触发其反事实思考,而<预见>更多可替代的策略方案,就能大幅降低孔明的<后悔>(诸葛亮深感任人不当)机会了。例如,可能的替代方案之一是:让王平当主将,并由马谡担任总参谋(副将)。或许这个替代方案真的让孔明的<后悔变成预见>。于是,就来设计核心的智能体角色(图-1):

图-1
虽然历史的事实不能重演,但是在AI智能体(Agent)的虚拟环境中,却能针对不同的反事实思考方案来进行模拟演练,然后观察各种可能方案的结局。这样的决策式AI能够协助决策者(如孔明、马谡),来大幅降低决策风险、提高胜率。于是,基于史书里的<马谡失街亭>故事题材,将可以打造出一个虚拟的<马谡王平智能体(Agent)共赢街亭>系统(图-2)。

图-2
在人类历史上,许多伟大的决策者,都曾留下相似的感叹:「如果当时早知道……」。这句话,其实就是<后悔>。历史中充满这样的时刻:用人不当、战术失误等。决策者往往是在事件发生之后,才知道哪条路才是更好的选择。在 AI智能体的协同决策中,这种与所发生事实相反的事后之明,通称为:反事实思考(Counterfactual Thinking)。
这种思考能力,是人类创新力的重要来源之一。它能让人们重新检视过去的决策,并在未来做出更好的选择。然而,人类的大脑有一个限制:我们只能想象少数几条替代路径。但现实世界的决策空间,往往是巨大而复杂的。于是,大多数的「更好选择」,往往在历史中永远没有被看见。
此时,AI的GNN(图神经网络)模型能从KG(知识图)里探索出潜在的反事实连结(Counterfactual Link,简称:CF_Link),就有可能协助Agent获得<预见>,并进而触发人们的反事实思考,而激发人类的创造力(图-3)。

图-3
在这AI智能体的演练中,战争爆发之前,GNN就从孔明KG探索出CF_Links,提供给王平(Agent)和马谡,让它们可以看到不同决策路径(如依城据守、山上扎营、兵分二路)的模拟结果。那么,马谡和孔明就不必在战后才后悔了,因为可以在战前就预见。
2. 智能体决策路径的模拟
在本文里,所采取的智能体开发流程,包含三个阶段:
u 第一阶段:让 AI Agent (王平)长出策略智慧。
u 第二阶段:训练LoRA助手,让LLM(马谡)入乡随俗。
u 第三阶段:于是Agent和LLM + LoRA双方协同合作,共赢街亭。也如同喜玛拉雅山的雪巴人与登山者双方协同一齐登峰。
其中的第一、二阶段部分,采用三国演义故事的角色来说明,所以称之为:孔明模式。而其中的第三阶段部分,则采用雪巴人协助登山者一齐登峰来说明,所以称之为:雪巴人模式(图-4)。

图-4
基于这两项众人都很熟悉的典故,作为通俗的比喻,可迅速领会智能体协作模拟的规划步骤。
A、先以孔明模式练兵
Ø 以 KG 为战略知识,
Ø 以 FSM + DT 为天地规则,
Ø 以 LLM 为总参谋,
在人机双养与兵分二路之中,慢慢养成一位真正熟悉本地、能掌决策、会在场域中行走的 Agent。其中,以 KG 作为孔明的战略知识,并以 FSM(状态机) + DT(数字孪生)作为天地地势与场域规则。再聘请一位总参谋,也就是 LLM(马谡)。在这样的架构下,一方面培育出真正熟悉本地、能掌行动决策的王平(Agent)。
接着,也透过 SFT(监督式微调),训练出懂在地规矩、能辅助解说与参谋的助理参谋(LoRA模型)。这一环节的重点是:先把兵练好,先把主将与副将的角色养成。
然后,再进入雪巴人向导模式:由 Agent 担任登山者,LLM + LoRA 担任雪巴人与副将,三者一起出征,最终目标是协力登顶圣母峰。
B、以雪巴人模式出征
接着,进入雪巴人向导模式:由 Agent 担任登山者,LLM + LoRA 担任雪巴人与副将,三者一起出征,最终目标是协力登顶圣母峰。
Ø 让 Agent 成为登山者,
Ø 让 LLM + LoRA 成为雪巴人向导与副将,陪它一起前行、一起解说、一起面对风险、一起逼近山顶。
简而言之,孔明模式练兵,雪巴人模式出征。主将掌决策,副将补智慧;知识养 Agent,Agent 也养知识。于是,AI 不只会走,还会懂、会说、会陪走、会共赢。先养成王平与助理参谋,再让 Agent、LoRA、LLM 携手登顶圣母峰。这是一条完整的工业 Agentic AI 养成之路。其中的关键点不是谁取代谁,而是主将、总参谋、助理参谋协作出征。
C、真正进入战场
在进入真实战场后,同一位总参谋(LLM),可以透过不同 LoRA 分身,陪伴不同军事队伍的指挥官(Agent);并在各自场域中,协助理解候选策略、提示风险方向、强化人机协作,最终帮助Agent所追求的整体战术效益更稳、更高。于是,同一个 LLM 可透过不同 LoRA,陪不同 Agent 进入不同战区。由Agent 掌决策,LLM 协助理解、帮助探索、提共解说,最终共同放大整体的战术效益。亦即,总参谋一人,分身多路;主将各自领军,副将各擅其场,最终让候选更清、风险更明、效益更高。
其中,Agent 负责真正的行动决策与战术执行;LLM + LoRA 则负责理解行动方案(Rollout)、解说局势、协助理解候选策略,并放大 CF_Links 的风险提示与探索价值。于是,在 KG、DT、Event 的外围压力与场域条件下,整体协作就能把 Agent 所追求的最终战术效益推向更高水平,完美实践智能体决策路径的模拟。
3. 结语
以 KG 为孔明的战略知识,以 FSM + DT 为天地规则,并聘请总参谋 LLM(马谡),逐步培育出熟悉本地、能掌决策的王平(Agent),以及懂在地规矩、能辅助解说与参谋的助理参谋(LoRA)。接着,再进入雪巴人向导模式,由 Agent 担任登山者,LLM + LoRA 担任雪巴人与副将,三者一起出征,最终目标是协力登顶圣母峰。
简而言之,这套葵花宝典的核心是:FSM + KG 兵分二路,透过人机双养,培育会自主决策Agent。进而,藉由Agent + LoRA(LLM)协同合作,让登山者与雪巴人一起登峰。这可比喻为:王平掌握行动策略,马谡补语义,LoRA助在地;孔明定知识,天地映场域,司马懿施事件——多方协作,以虚拟的<马谡王平智能体(Agent)共赢街亭>系统,来观察后悔变成预见的美好效果。
在下一集里,将继续说明和演示上述孔明模式与雪巴人模式的实施细节。



评论