新闻中心

EEPW首页 > 市场分析 > 建立中游知识图来支撑企业主权式AI

建立中游知识图来支撑企业主权式AI

作者: 时间:2025-05-24 来源:EEPW 收藏


本文引用地址:https://www.eepw.com.cn/article/202505/470790.htm

1   前言

在上一期里,介绍了<三层KG架构>的设计流程。在本文里,将介绍这种新潮KG(Knowledge Graph)架构的重要用途之一,就是:基于本地行业自主性KG数据,展开训练中游GNN模型,来支持下游企业建立可信、可控、可更新的主权式AI系统。

大家都知道,如今,GenAI逐渐变成知识整合与创新推理的工具,而非黑箱结果输出的机器而已。于是,我们可以透过 <KG+GNN+CF+LLM>的整合架构设计,推导出高效的主权AI实践流程。其包含大语言模型(LLM)协助构建KG、并训练GNN推理潜在知识与反事实链接(Counterfactual Link, 简称:CF_Link), 经由人类进行创新决策后回馈知识图,最终结合RAG与LLM完成可信、可控、可更新的主权AI系统。

2   复习:三层KG架构设计

由于LLM非万能,而企业KG却是可信知识核心。采用<低监督/少标注/高弹性>的实践策略,其可扩展性与低成本优势,非常契合主权AI的自主性与本地性目标。在主权AI的知识图谱(KG)建构过程中,专家知识不是辅助,而是设计师。他们决定哪些知识能形成语意路径,哪些节点之间存在潜在可推理的因果链。例如,三层KG架构的特质如下:

●   KG分为<上游-中游-下游>三阶段金字塔结构,彼此分工清晰又互补,为LLM、GNN与人类决策提供坚实的知识支撑。

●   上游通用性KG:善用开源的行业性知识,避免从零建构,减少80%中下游KG开发成本。

●   中游特定领域性KG:结合企业内部数据,融合文化、地区与组织习惯的知识模式。捕捉真实商业语境,为GNN提供语意嵌入训练基础。

●   下游任务型应用KG:支持多样化AI应用任务(推荐、风险评估),增加营收(交叉推荐)、降低决策风险。

3   建立行业中游KG:以乳癌领域为例

3.1   选择上游通用性大KG

本案例的缘由是:因为在医疗领域的开源、开放DRKG( Drug repurposing knowledge graph, 中文译:药物再利用知识图谱),其支持下游的精准医疗AI任务上,表现非常亮丽。

同时,人们也从生物知识库中整合了以疾病和基因为中心的多种关系,开发了一个使用交互张量分解来识别疾病基因关联的通用性大KG完成模型,称为:KDGene。其透过感知相关知识,模型能够学习到不同关系的内涵,赋予生物实体和关系更全面、更精确的表示,有利于疾病基因预测。如下图1所示:

1748094676567264.png

图1 选择适当的上游大KG

这些上游大KG的预训练知识,能有效节省中、下游模型的训练速度和成本。

3.2 建立中游领域性KG

本案例是针对<乳腺癌症>领域,使用神樱AI团队自己开发的SAK-Builer工具,建立了中游领域性KG,取名为:MutationKG。其架构如下图2所示:

1748094733646000.png

图2 建立中游KG

3.3 训练<主权式>中游领域性GNN模型

在训练时,首先从上游DRKG里读取药物实体的嵌入向量(Embeddings), 成为这中游MutationKG的< 药物> 节点的起始特征(Initial Features)。同时,也从上游KDGene里读取基因实体的嵌入向量(Embeddings),成为这中游MutationKG的< 基因>节点的起始特征。然后,搭配本地机构自主性癌症及其类型数据,展开训练中游GNN模型,如下图-3所示:

1748094812609010.png

图3 训练出自主的中游KG

此时,训练1000回合之后,继续加码训练25 回合,就完成了。

于是,已成功训练出一个能够把突变数据转换成嵌入向量的GNN模型,而且嵌入已储存于mutation_embeddings_gin.csv档案里,可供后续下游任务使用(如分类、群聚、可视化、或与影像特征融合等)。

3.4 支撑<主权式>下游应用型<KG+GNN>模型

这项下游任务结合了医学影像特征(Ultrasound/MRI)进行多模态推论,也将GNN输出的嵌入与CNN影像特征进行融合,提供AI辅助诊断(如预测、分类等)。

如下图4所示:

1748094939687580.png

图4 支撑下游主权AI开发

关于超音波影像中的疑似的肿瘤评估,定义于美国放射学会所制定BI-RADS的描述项目及描述特征。BIRADS是指美国放射学会(ACR)的乳腺影像报告和数据系统(Breast Imaging Reporting and Data System) 的缩写。BI-RADS分级标准被广泛应用于乳腺的各种影像学检查,如乳腺钼靶X线摄影、彩超、核磁共振,是用来评价乳腺病变良恶性程度的一种评估分类法。

4   迈向决策式主权AI

反事实推理(Counterfactual Inference)与KG的结合愈来愈重要。基于KG+GNN的应用:包括社交网络分析、医疗知识图谱、推荐系统等,反事实推理能够帮助人们理解和分析图结构中的因果关系。例如,本案例的决策式AI可以提供治疗建议:「如果采用另一种治疗方案,病情可能会如何发展?」。利用反事实分析来理解不同治疗方案的潜在效果,进行个性化的治疗决策支持。

在这三层KG体系的支持下,决策式AI发挥反事实推理能力。例如思考:如果删除一个可能的疾病节点,诊断预测结果会如何变化?使用反事实分析来进行因果推理,找出可能的误诊或未被考虑的疾病。本文提出一套融合大型语言模型(LLM)与知识图谱(KG)的实践方案,作为企业或产业建立主权AI 核心的关键基础架构。

5   结语

企业要打造可信、可控、可更新的主权AI,不靠黑箱,而是靠自己建构知识图谱(KG),结合图神经网络(GNN)与大型语言模型(LLM)。透过三层KG架构(上游、中游、下游),企业能融合内部数据与行业知识,推动智能推理与反事实分析,建立真正属于自己的主权式AI系统。

(本文来源于《EEPW》



关键词: 202505

评论


技术专区

关闭