腾讯AI Lab联合清华、港中文,万字解读图深度学习历史、最新进展与应用(8)
三、图神经网络的应用进展
图神经网络作为一种有效的深度学习工具,已经在分子属性预测、生物学分析、金融等许多领域得到了应用。这里以腾讯 AI Lab 实现的在社交网络和医疗影像领域的应用为例,介绍图神经网络的应用进展。
1.用于社交网络的 GNN
首先来看一篇 WWW 2019 论文《Semi-supervised graph classification: A hierarchical graph perspective》,其中腾讯 AI Lab 提出了使用分层图实现半监督图分类的方法。
分层图是指一组通过边互相连接在一起的图实例,如图所示:
在许多现实应用中,很多数据都可以建模成分层图的形式,比如具有分组结构的社交网络和文档集合(比如具有引用关系的graph-of-words)。如上所示,假设我们有一个「用户-分组」分层图,我们知道其中部分标签,我们可以怎样预测其它组的标签?
如果仅考虑组之间的联系,那么这个问题就又回到了节点分类。但是,可以看到每一组都有自己的用户图,忽略这样的信息并不合适。为了在用户和分组层面上利用图信息,我们面临着这样的难题:如何将任意大小的图表征为固定长度的向量?如何整合实例层面和分层层面的信息?
首先来看第一个问题。图表征与节点表征在不同的层面上;在节点层面上图 G 会被投射到大小为 n×v 的隐藏空间中;而在图层面上图 G 会被投射成大小为 v 的隐藏向量。因此,为了将节点层面的空间转换成图层面的向量,这里引入了自注意力图嵌入(SGAE)
首先,将单个图通过一个两层 GCN,得到节点层面的表征 H,其大小为 n×v,然后根据上图中的 S 计算自注意力。在经过一个 softmax 函数之后,会得到一个具有 r 个头的多头自注意分数,其大小为 r×n。然后,如果我们将这些分数应用到节点层面的表征,我们就会得到大小固定为 r×v 的矩阵。SAGE 有三大优势:1)其大小因自注意力而保持不变,2)因为 GCN 平滑而具有排列不变性,3)因为自注意力而能使用节点重要度。
对于第二个问题:如何整合实例层面和分层层面的信息?这里实例层面是基于 SAGE 的图层面学习,分层层面模型是节点层面的学习。我们使用了特征共享来连接 SAGE 的输出和 GCN 的输入。然后又引入一种新的分歧损失(disagreement loss)来最小化实例分类器和分层分类器之间的不一致情况。
另外,我们还使用了主动学习来解决样本数量少的问题。我们使用了分歧损失来为外部标注选择实例。有关这两种算法 SEAL-AI 和 SEAL-CI 的详情以及相关实验结果请查阅论文。
接下来看腾讯 AI Lab 另一项被 AAAI 2020 接收的研究《Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks》,提出了一种通过双向图卷积网络实现社交网络谣言检测的新思路。
谣言可算是当今社会面临的一大顽疾。这篇论文提出通过关注和转发关系来检测社交媒体上的谣言。不管是谣言还是新闻,它们的传播模式都是树结构的。但通常来说,谣言的传播有两个属性。第一如下图 b 所示,其会沿一条关系链进行很深的传播。第二如图 c,谣言在社交媒体上传播时散布很宽。举个例子,一个 Twitter 用户可能有大量关注者。
为了同时获取谣言传播的这两种属性,我们设计了一种基于 GCN 的新模型。这个用于谣言检测的双向 GCN 包含 4 个组件:1)两个不同的有向图,用于描述谣言的传播和扩散度;2)使用二层 GCN 来计算高层面的节点表征;GCN 不仅能学习特征信息,还能学习谣言的传播拓扑结构;3)经过观察,根节点通常就已经包含了谣言或新闻的主要内容,而关注者通常只是不带任何内容进行转发,因此通过将根特征连接到树中的每个节点,可以增强每层的隐藏特征;4)分别根据节点表征对传播和扩散度的两个表征进行池化处理。这两个表征再被聚合到一起得到最终结果。
我们在 Twitter15、Twitter16、Weibo 三个常用基准上的实验研究对这一方法的效果进行验证,结果表明新方法具有显著更优的表现。
此外,我们还评估了谣言的早期侦测,此时仅给出谣言树上非常有限的节点并且还设置了一个侦测截止时间,结果表明基于图的方法非常适用于早期发现谣言。
2.用于医疗影像的 GNN
医疗影像也是 GNN 的一个重要应用场景,腾讯 AI Lab 近两年在这一领域取得了一些重要的研究成果。首先来看腾讯 AI Lab 的 MICCAI 2018 论文《Graph CNN for Survival Analysis on Whole Slide Pathological Images》,其中提出使用图卷积网络基于全切片病理图像进行生存分析。
生存分析的目标是预测特定事件发生的风险,这类事件包括器官衰竭、****物不良反应和死亡。有效的分析结果具有重要的临床应用价值。但实际操作时却面临着许多困难。
首先,全切片病理图像(WSI)分析是一个需要大量计算的过程,因为单张 WSI 的数据量就超过 0.5 GB,而且其中包含数百万个细胞,还涉及局部特征和全局特征,因此非常复杂。另外,如何将 WSI 的拓扑特征用于生存分析也还是一个有待解决的问题。
为此,我们提出将 WSI 建模成图,然后开发了一种图卷积神经网络(Graph CNN),其使用了注意力机制,可通过提供 WSI 的最优图表征来实现更好的生存分析。
实验结果表明,这种新方法优于之前的其它方法。
这一部分同时也介绍了近年来GNN在医疗图像上的其他工作:在IPMI2019发表的《Graph Convolutional Nets for Tool Presence Detection in Surgical Videos》中,作者提出使用 GCN 来检测手术视频中的工具,这是自动手术视频内容分析的核心问题之一,可用于手术器材使用评估和手术报告自动生成等应用。这个模型使用了 GCN 沿时间维度通过考虑连续视频帧之间的关系来学习更好的特征。
而在MICCAI 2020发表的论文《Graph Attention Multi-instance Learning for Accurate Colorectal Cancer Staging》中,作者提出使用图注意力多实例学习来准确判断结直肠癌是处于早期、中期还是晚期。
总结和展望
在这次课程中,我们介绍了图神经网络的发展历史、包括图神经网络的表达能力、深度、大规模扩展、自监督/无监督学习等方面的研究进展,也简要介绍了腾讯 AI Lab 在图神经网络的社交网络和医疗影像应用方面的一些初步成果。
图深度学习领域仍处于发展之中,有很多有趣的问题等待解决,例如逆向图识别(IGI),即我们在图分类问题中,是否可以根据图的标签来推断每个节点的标签?子图识别,即如何在图中找到关键的子图同时还有图与多示例学习问题的结合形成多图示例学习问题,以及在图上进行攻击与防御相关的图深度学习鲁棒性的研究。最后,层次图也是一个热门的研究方向。图神经网络必将在人工智能领域未来的研究和应用中扮演更重要的角色。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。