专栏中心

EEPW首页 > 专栏 > 腾讯AI Lab联合清华、港中文,万字解读图深度学习历史、最新进展与应用(3)

腾讯AI Lab联合清华、港中文,万字解读图深度学习历史、最新进展与应用(3)

发布人:腾讯AI实验室 时间:2020-09-28 来源:工程师 发布文章

过平滑

首先来看过平滑。GNN 本质上是逐层推送彼此相邻节点混合的表征,因此极端地看,如果层数无限多,那么所有节点的表征都将收敛到一个驻点,这也就与输入特征完全无关了,并会导致梯度消失问题。因此,过平滑的一个现象是模型的训练损失和验证损失都难以下降。那么,为什么会出现过平滑呢?

我们以线性 GCN 来进行说明。首先,GCN 与平滑有何关联?一般来说,GCN 可被视为拉普拉斯平滑(Laplacian smoothing)的一种特殊形式,如下所示:

1601257821581166.png

这个过程意味着一个节点的新特征是根据其本身和相邻节点的加权平均而构建的。

要知道这个过平滑过程发生的位置,我们先讨论一下 GCN 何时会因过平滑而失效?我们将讨论三种过平滑的情况。第一种是使用线性激活时,隐变量 H_L 会收敛到一个特定的点。第二种是使用 ReLU 激活时,H_L 会收敛到一个特定的平面 M。第三种是使用 ReLU 加偏差时,H_L 会收敛到一个特定的子立方体 O(M, r) 的表面。

1601257842540435.png

在使用线性激活的情况下,H_L 为什么会收敛到一个特定的点呢?实际上,这与 L步随机游走有关。一个游走器从一个节点游走到其一个相邻节点的概率为「1/该节点的度」。经过 L步游走后,游走的路径会形成一个已访问节点的序列。用数学公式表示,随机游走的过程实际上就是一个归一化的矩阵的 L次幂乘以初始概率。

然后,如果我们用一组在节点特征上的可学习参数替换这个初始概率,它就能转换成一个线性的 L层 GCN。

1601257863466657.png

可以看出,基于随机游走的一些结论也适用于线性 GCN,其中一项便是随机游走在经过无限多步之后会收敛到一个驻点。

详细地说,我们首先需要进行特征值分解,即将归一化的邻接矩阵分解为 n 个特征值 λ 及其对应的特征向量 u。

1601257888332543.png

将这个求和展开,可得到下式:

1601257908293571.png

这个图谱中的特征值有一个性质。即,假设一个图 g 包含 m 个互相连接的分量,则归一化邻接矩阵的特征值便由 m 个为 1 的最大特征值构成,其余的 λ 则在 (-1,1) 的开区间中。

因此,当 lL趋近无穷大时,最大的 m 项依然存在,因为其 λ 等于 1。但是,其余的项都将被忽略,因为这些 λ 的 l 次幂将趋近于零。这会使得隐变量 H_L 随网络深度增长而趋近于一个特定的点。

6.png

另一方面,对于非线性的情况,H_L 将收敛到一个具有非线性激活 ReLU 的特定子空间 M。首先我们给出 M 子空间的定义:

7.png

则随着层的深度增加,隐变量将越来越接近子空间 M。H_L+1 离该子空间的距离至少为:

8.png

要注意,λ_m+1 是邻接矩阵中最大的非 1 特征值,s_l 则是模型参数 W_l 中最大的奇异值。

接下来我们开始解析这个收敛公式。这个归一化邻接矩阵的收敛满足这一不等式。

9.png

如果我们假设这个子空间的维度为 m,则 m 个最大的 λ 将位于该子空间,其余的则在 λ_m+1 的范围内。

然后,模型参数 W_l 和 ReLU 的收敛分别满足下列两个不等式:

10.png

有关这些不等式的更详细证明,请参阅 ICLR 2020 论文《Graph Neural Networks Exponentially Loss Expressive Power for Node Classification》。

综合这些不等式,可得到隐变量的子空间距离沿层数变化的收敛性。可以看到,随着层数趋近于无穷大,子空间距离将趋近于 0,因此隐变量将会收敛到子空间 M。

11.png

接下来是更一般的情况,使用 ReLU 加偏差的 GCN 又如何呢?H_L 将收敛到一个特定子立方体 O(M,r) 的表面上。首先,我们写出带偏差的 GCN 的公式:

12.png

很显然,由于 b_l 到子空间的距离是一个常量,因此其收敛性就满足:

13.png

可以看到,当 l 趋近无穷大时,不等式右侧部分就是一个无穷等比序列的和:

14.png

因此,可以看到 H_L 将趋近于一个子立方体的表面,其与子空间 M 的距离为 r,而 r 就等于上式。

总结一下,通过分析上面三种来自不同场景的情况,可以发现这三种情况之下存在一种普适的公式。我们可用以下不等式统一过平滑的情况:

15.png

然后通过不同的 v 和 r 取值,我们可以得到不同的具体情况:

16.png

详见论文:

《Tackling Over-Smoothing for General Graph Convolutional Networks》(https://arxiv.org/pdf/2008.09864.pdf)。

专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词:

相关推荐

中国Agibot计划在塞尔维亚生产类人机器人

莫悲观,车企迎来盈利增长转折点

汽车电子 2026-02-04

LimX筹集2亿美元用于构建具身智能

FPGA典型应用领域及解决方案

视频 2009-10-22

英特尔重返 DRAM 赛道?深入解析与软银合作的 Z-Angle 内存项目

机器人技术将颠覆人工智能基础设施:未来之路何在

嵌入式Linux防火墙产品设计 下

视频 2009-10-23

TACC借助 Horizon 系统探索高性能计算混合精度与 FP64 仿真技术

Gartner再度预测人工智能支出趋势

HT单片机选型指南

FPGA的DSP应用

视频 2009-10-22

瑞士如何以 “精耕细作” 打造全球半导体优势

EDA/PCB 2026-02-04

“漏音”6G芯片技术击败了狭窄的太赫兹束限制

HD7279A在单片机键盘和显示接口中的应用

嵌入式Linux防火墙产品设计 中

视频 2009-10-23

C6000 DSP软件开发环境CCS介绍

视频 2009-10-22

Atlas展示了深层科技如何存活下来

HT48MCU的WDT使用

更多 培训课堂
更多 焦点
更多 视频

技术专区