行业性中游KG的实践范例与解说
1 前言:中游KG的关键角色
在上一期里,介绍了< 三层KG架构设计>,其中的核心是:训练<主权式>中游领域性GNN模型。这GNN模型就如同光影般在枝干之间流转,发掘那些隐形的脉络,这AI模型对世界潜在逻辑的无声咀嚼。而人类专家的反事实直觉,则像是一阵阵富有灵性的风,为知识树注入主观判断与未来想象的气息(图1)。
图1
GNN不断向树内注入可能的连结(如同春天的芽)。专家思辨则回应、取舍、养护(如同秋天的修枝)。于是,KG随着一次次有机回馈,在冬藏与夏茂之间,持续拓枝展叶(如同夏天得茂盛)。垂直行业的本地专属性KG(中游),搭配企业专属性KG(下游),两这结合来提供主权式的语境,让LLM入乡随俗,也让本地专家反事实思考来持续更新KG(图2)。于是,「中游+ 下游KG的语境融合设计」正是实践主权AI的关键路径之一。
图2
这个新架构,能让LLM成为「受过企业训练的AI助理」:
● 用中游+下游KG作为LLM的「训练文化背景」与「工作目标指令」。
● 再用RAG机制或LoRA微调,只需少量数据就可让模型变得非常贴近企业需求。
● 其中,保留了「反事实思考」这道人类控制关卡,是一项安全的创新设计。
亦即,让LLM变得「入乡随俗」,又能由企业自己主导更新与推理。在生成式AI快速普及的时代,数据不再只是资源,更可能成为风险,并引发信任危机。
于是,以企业专属的中游主权KG,不是替代LLM,而是给AI一个可信的语境,从而产生可信的判断。
于是,这项创新流程,从知识图谱到GNN,到大型语言模型整合,让企业能够打造出真正属于自己的AI系统,而不是完全依赖外部云端平台。未来,不论是餐饮、医疗,还是供应链管理,都能靠这样的方法,走向更智慧、更有主控权的AI 时代。
2 复习:中游KG+GNN模型训练
刚才已经说明了,上述<三层KG架构>的核心是:训练< 主权式> 中游领域性GNN模型。在训练时,首先从上游DRKG里读取药物实体的嵌入向量(Embeddings),成为这中游MutationKG的< 药物>节点的起始特征(Initial Features)。同时,也从上游KDGene里读取基因实体的嵌入向量(Embeddings),成为这中游MutationKG的< 基因> 节点的起始特征。
然后,搭配本地机构自主性癌症及其类型数据,就准备就绪了(图3):
图3
这样可以顺利训练出一个能够把突变数据转换成嵌入向量的GNN模型, 能产生节点的嵌入向量(Embedding),来提供给后续的下游任务使用(如分类、群聚、或与影像特征融合等)。例如,下游任务可以结合医学影像特征(Ultrasound/MRI)进行多模态推论,也将GNN输出的嵌入与CNN影像特征进行融合,提供AI辅助诊断(如预测、分类)等各种应用。
3 实践范例
此范例使用Python代码来实践模型训练,并搭配xlwings和openvino套件,来提供可操作的Excel画面和部署(Deployment)环境。首先,开启ee01.py,如下:
Step-1:建立中游KG
接着,执行它(即ee01.py),并且在Excel画面按下< 建立中游KG> 按钮,就建立了一个中游KG(图-2):
这个中游KG含有4 种节点(Node),以及5种边(Edge)。为什么需要中游KG ?中游KG 让推理不只是输出结果,而是结合本地知识,做出更贴合使用情境的智慧推理。中游KG是什么?它和一般数据库有何不同?中游KG是一个语义结构化的知识层,不只是储存数据,而是让机器理解本地知识与语境的推理支持系统。中游KG是行业语境的桥梁,也有助於解决LLM的通用性盲点:
● LLM强在语言理解与生成,但弱在「行业知识的语境精准性」。
● 而中游KG 是来自行业、地区、语言语意等本地知识、地区文化、专业词汇、历史案例(例如在医疗中同一病名的不同处理方式),强化模型语境理解,提升语义精度。正是补足LLM「不懂地方、不懂细节」的关键资产。
● 中游KG让LLM能「入乡随俗」,说得专业、理解场域,是可信AI 的知识背景层(Context layer) ---即让LLM能「说行话、讲道理、不乱编(有资料依据)」。
Step-2:训练GNN模型
接着,按下<训练GNN模型>,就展开训练流程,如下:
训练完成了,就生成各节点的嵌入(Embeddings),并储存于c:/ox_M3_embeddgins/里, 将提供给下游任务使用。由于当今的下游AI部署流程,常常缺乏语境在地化(Contextualization),导致模型布署后难以完全贴合本地知识、生产流程与客户需求。于是,以中游KG作为语境支撑层,结合智慧布署技术(如OpenVINO),即可让AI 真正入乡随俗、自主成长。
其核心做法是:
● 先构建一个企业或行业专属的中游KG(知识图),承载本地知识、术语、作业流程。
● 当AI模型要智能布署到各种终端(Edge)设备时,可透过这个中游KG来提供实时语境信息。
● 这让AI模型在布署时,不只是推理(Inference),而是带着在地知识智能地推理与更新。因有语境支撑,模型可自动或半自动地针对本地变化(新流程、新规范)进行增量学习或推荐修正,增加AI持续更新与微调能力,降低模型老化风险。中游KG可本地部署,无须上云传输大量敏感数据,符合GDPR、CCPA 等合规需求:数据隐私与主权保障。无论是CPU、GPU、VPU 或其他异质硬件,各种布署环境(如OpenVINO)都能结合中游KG,来让部署端实时获得「语境智慧加持」,具有跨设备与异质环境灵活性。
Step-3:探索CF_Links
接着,按下< 探索CF_Links>,就出现:
GNN探索反事实边(CF_Links),例如:針對ID是<C0001202>的癌症,GNN探索出3項反事实边,然後提出潛在的用藥推薦(如上圖所示)。其目的是:由GNN探索反事实边,來激发人类专家的反事实思维(CF_Thinking)。人机协作完成知识诞生与AI可解释推理,这是主权AI的治理核心,保有人类主导权,防止AI幻觉或误导。亦即:人类CF思考+ 创新决策。然後,將人類專家的創新決策回馈更新KG,让静态KG 变成有生命的KG,成為动态AI 推理资产,也让LLM 响应与企业内知识结合。于是,完整实践了< 知识– 推理– 决策– 更新> 的人机协作模式,也落实了主权AI 精神。
4 结语
行业性中游的实践效益是:
● 跳脱单向推论模型:这方法是「知识推理+ 人类决策」双循环,不是死数据库,也不是死推论器
● 融入反事实思维(CF Thinking):这符合全球最新的AI推理领域趋势,特别是医疗、金融、制造业开始要求AI能模拟「如果……那会如何?」这种推理。
● 主权AI治理完整框架:除了本地部署之外,也设计了知识版本控制、人机共生更新。这正是主权AI最难、最稀缺的部分。
(本文来源于《EEPW》202506)
评论