建立中游知识图来支撑企业主权式AI
1 前言
在上一期里,介绍了<三层KG架构>的设计流程。在本文里,将介绍这种新潮KG(Knowledge Graph)架构的重要用途之一,就是:基于本地行业自主性KG数据,展开训练中游GNN模型,来支持下游企业建立可信、可控、可更新的主权式AI系统。
大家都知道,如今,GenAI逐渐变成知识整合与创新推理的工具,而非黑箱结果输出的机器而已。于是,我们可以透过 <KG+GNN+CF+LLM>的整合架构设计,推导出高效的主权AI实践流程。其包含大语言模型(LLM)协助构建KG、并训练GNN推理潜在知识与反事实链接(Counterfactual Link, 简称:CF_Link), 经由人类进行创新决策后回馈知识图,最终结合RAG与LLM完成可信、可控、可更新的主权AI系统。
2 复习:三层KG架构设计
由于LLM非万能,而企业KG却是可信知识核心。采用<低监督/少标注/高弹性>的实践策略,其可扩展性与低成本优势,非常契合主权AI的自主性与本地性目标。在主权AI的知识图谱(KG)建构过程中,专家知识不是辅助,而是设计师。他们决定哪些知识能形成语意路径,哪些节点之间存在潜在可推理的因果链。例如,三层KG架构的特质如下:
● KG分为<上游-中游-下游>三阶段金字塔结构,彼此分工清晰又互补,为LLM、GNN与人类决策提供坚实的知识支撑。
● 上游通用性KG:善用开源的行业性知识,避免从零建构,减少80%中下游KG开发成本。
● 中游特定领域性KG:结合企业内部数据,融合文化、地区与组织习惯的知识模式。捕捉真实商业语境,为GNN提供语意嵌入训练基础。
● 下游任务型应用KG:支持多样化AI应用任务(推荐、风险评估),增加营收(交叉推荐)、降低决策风险。
3 建立行业中游KG:以乳癌领域为例
3.1 选择上游通用性大KG
本案例的缘由是:因为在医疗领域的开源、开放DRKG( Drug repurposing knowledge graph, 中文译:药物再利用知识图谱),其支持下游的精准医疗AI任务上,表现非常亮丽。
同时,人们也从生物知识库中整合了以疾病和基因为中心的多种关系,开发了一个使用交互张量分解来识别疾病基因关联的通用性大KG完成模型,称为:KDGene。其透过感知相关知识,模型能够学习到不同关系的内涵,赋予生物实体和关系更全面、更精确的表示,有利于疾病基因预测。如下图1所示:
图1 选择适当的上游大KG
这些上游大KG的预训练知识,能有效节省中、下游模型的训练速度和成本。
3.2 建立中游领域性KG
本案例是针对<乳腺癌症>领域,使用神樱AI团队自己开发的SAK-Builer工具,建立了中游领域性KG,取名为:MutationKG。其架构如下图2所示:
图2 建立中游KG
3.3 训练<主权式>中游领域性GNN模型
在训练时,首先从上游DRKG里读取药物实体的嵌入向量(Embeddings), 成为这中游MutationKG的< 药物> 节点的起始特征(Initial Features)。同时,也从上游KDGene里读取基因实体的嵌入向量(Embeddings),成为这中游MutationKG的< 基因>节点的起始特征。然后,搭配本地机构自主性癌症及其类型数据,展开训练中游GNN模型,如下图-3所示:
图3 训练出自主的中游KG
此时,训练1000回合之后,继续加码训练25 回合,就完成了。
于是,已成功训练出一个能够把突变数据转换成嵌入向量的GNN模型,而且嵌入已储存于mutation_embeddings_gin.csv档案里,可供后续下游任务使用(如分类、群聚、可视化、或与影像特征融合等)。
3.4 支撑<主权式>下游应用型<KG+GNN>模型
这项下游任务结合了医学影像特征(Ultrasound/MRI)进行多模态推论,也将GNN输出的嵌入与CNN影像特征进行融合,提供AI辅助诊断(如预测、分类等)。
如下图4所示:
图4 支撑下游主权AI开发
关于超音波影像中的疑似的肿瘤评估,定义于美国放射学会所制定BI-RADS的描述项目及描述特征。BIRADS是指美国放射学会(ACR)的乳腺影像报告和数据系统(Breast Imaging Reporting and Data System) 的缩写。BI-RADS分级标准被广泛应用于乳腺的各种影像学检查,如乳腺钼靶X线摄影、彩超、核磁共振,是用来评价乳腺病变良恶性程度的一种评估分类法。
4 迈向决策式主权AI
反事实推理(Counterfactual Inference)与KG的结合愈来愈重要。基于KG+GNN的应用:包括社交网络分析、医疗知识图谱、推荐系统等,反事实推理能够帮助人们理解和分析图结构中的因果关系。例如,本案例的决策式AI可以提供治疗建议:「如果采用另一种治疗方案,病情可能会如何发展?」。利用反事实分析来理解不同治疗方案的潜在效果,进行个性化的治疗决策支持。
在这三层KG体系的支持下,决策式AI发挥反事实推理能力。例如思考:如果删除一个可能的疾病节点,诊断预测结果会如何变化?使用反事实分析来进行因果推理,找出可能的误诊或未被考虑的疾病。本文提出一套融合大型语言模型(LLM)与知识图谱(KG)的实践方案,作为企业或产业建立主权AI 核心的关键基础架构。
5 结语
企业要打造可信、可控、可更新的主权AI,不靠黑箱,而是靠自己建构知识图谱(KG),结合图神经网络(GNN)与大型语言模型(LLM)。透过三层KG架构(上游、中游、下游),企业能融合内部数据与行业知识,推动智能推理与反事实分析,建立真正属于自己的主权式AI系统。
(本文来源于《EEPW》202505)
评论