建立中游知识图来支撑企业主权式AI

作者：时间：2025-05-24 来源：EEPW

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

本文引用地址：https://www.eepw.com.cn/article/202505/470790.htm

1 前言

在上一期里，介绍了<三层KG架构>的设计流程。在本文里，将介绍这种新潮KG(Knowledge Graph)架构的重要用途之一，就是：基于本地行业自主性KG数据，展开训练中游GNN模型，来支持下游企业建立可信、可控、可更新的主权式AI系统。

大家都知道，如今，GenAI逐渐变成知识整合与创新推理的工具，而非黑箱结果输出的机器而已。于是，我们可以透过 <KG+GNN+CF+LLM>的整合架构设计，推导出高效的主权AI实践流程。其包含大语言模型(LLM)协助构建KG、并训练GNN推理潜在知识与反事实链接(Counterfactual Link, 简称：CF_Link), 经由人类进行创新决策后回馈知识图，最终结合RAG与LLM完成可信、可控、可更新的主权AI系统。

2 复习：三层KG架构设计

由于LLM非万能，而企业KG却是可信知识核心。采用<低监督/少标注/高弹性>的实践策略，其可扩展性与低成本优势，非常契合主权AI的自主性与本地性目标。在主权AI的知识图谱(KG)建构过程中，专家知识不是辅助，而是设计师。他们决定哪些知识能形成语意路径，哪些节点之间存在潜在可推理的因果链。例如，三层KG架构的特质如下：

● KG分为<上游－中游－下游>三阶段金字塔结构，彼此分工清晰又互补，为LLM、GNN与人类决策提供坚实的知识支撑。

● 上游通用性KG：善用开源的行业性知识，避免从零建构，减少80%中下游KG开发成本。

● 中游特定领域性KG：结合企业内部数据，融合文化、地区与组织习惯的知识模式。捕捉真实商业语境，为GNN提供语意嵌入训练基础。

● 下游任务型应用KG：支持多样化AI应用任务（推荐、风险评估），增加营收（交叉推荐）、降低决策风险。

3 建立行业中游KG：以乳癌领域为例

3.1 选择上游通用性大KG

本案例的缘由是：因为在医疗领域的开源、开放DRKG( Drug repurposing knowledge graph, 中文译：药物再利用知识图谱），其支持下游的精准医疗AI任务上，表现非常亮丽。

同时，人们也从生物知识库中整合了以疾病和基因为中心的多种关系，开发了一个使用交互张量分解来识别疾病基因关联的通用性大KG完成模型，称为：KDGene。其透过感知相关知识，模型能够学习到不同关系的内涵，赋予生物实体和关系更全面、更精确的表示，有利于疾病基因预测。如下图1所示：

图1 选择适当的上游大KG

这些上游大KG的预训练知识，能有效节省中、下游模型的训练速度和成本。

3.2 建立中游领域性KG

本案例是针对<乳腺癌症>领域，使用神樱AI团队自己开发的SAK-Builer工具，建立了中游领域性KG，取名为：MutationKG。其架构如下图2所示：

图2 建立中游KG

3.3 训练<主权式>中游领域性GNN模型

在训练时，首先从上游DRKG里读取药物实体的嵌入向量（Embeddings），成为这中游MutationKG的< 药物> 节点的起始特征（Initial Features）。同时，也从上游KDGene里读取基因实体的嵌入向量（Embeddings），成为这中游MutationKG的< 基因>节点的起始特征。然后，搭配本地机构自主性癌症及其类型数据，展开训练中游GNN模型，如下图3所示：

图3 训练出自主的中游KG

此时，训练1000回合之后，继续加码训练25 回合，就完成了。

于是，已成功训练出一个能够把突变数据转换成嵌入向量的GNN模型，而且嵌入已储存于mutation_embeddings_gin.csv档案里，可供后续下游任务使用（如分类、群聚、可视化、或与影像特征融合等）。

3.4 支撑<主权式>下游应用型<KG+GNN>模型

这项下游任务结合了医学影像特征（Ultrasound/MRI）进行多模态推论，也将GNN输出的嵌入与CNN影像特征进行融合，提供AI辅助诊断（如预测、分类等）。

如下图4所示：

图4 支撑下游主权AI开发

关于超音波影像中的疑似的肿瘤评估，定义于美国放射学会所制定BI-RADS的描述项目及描述特征。BIRADS是指美国放射学会（ACR）的乳腺影像报告和数据系统（Breast Imaging Reporting and Data System）的缩写。BI-RADS分级标准被广泛应用于乳腺的各种影像学检查，如乳腺钼靶X线摄影、彩超、核磁共振，是用来评价乳腺病变良恶性程度的一种评估分类法。

4 迈向决策式主权AI

反事实推理（Counterfactual Inference）与KG的结合愈来愈重要。基于KG+GNN的应用：包括社交网络分析、医疗知识图谱、推荐系统等，反事实推理能够帮助人们理解和分析图结构中的因果关系。例如，本案例的决策式AI可以提供治疗建议：「如果采用另一种治疗方案，病情可能会如何发展？」。利用反事实分析来理解不同治疗方案的潜在效果，进行个性化的治疗决策支持。

在这三层KG体系的支持下，决策式AI发挥反事实推理能力。例如思考：如果删除一个可能的疾病节点，诊断预测结果会如何变化？使用反事实分析来进行因果推理，找出可能的误诊或未被考虑的疾病。本文提出一套融合大型语言模型（LLM）与知识图谱（KG）的实践方案，作为企业或产业建立主权AI 核心的关键基础架构。

5 结语

企业要打造可信、可控、可更新的主权AI，不靠黑箱，而是靠自己建构知识图谱（KG），结合图神经网络（GNN）与大型语言模型（LLM）。透过三层KG架构（上游、中游、下游），企业能融合内部数据与行业知识，推动智能推理与反事实分析，建立真正属于自己的主权式AI系统。

（本文来源于《EEPW》202505）

新闻中心

建立中游知识图来支撑企业主权式AI

评论

相关推荐

技术专区