Nature重磅：Hinton、LeCun、Bengio三巨头权威科普深度学习

作者：时间：2016-12-28来源：网络收藏

　　将递归神经网络(RNN)生成的标题作为额外输入，深度卷积神经网络(CNN)会从测试图片中提取表征，再利用训练好的RNN将图像中高级( high-level )表征「翻译成」标题(上图)。当RNN一边生成单词(黑体所示)，一边能将注意力集中在输入图像的不同位置(中间和底部;块状越亮，给予的注意力越多)的时候，我们发现，它能更好地将图像「翻译成」标题。

本文引用地址：http://www.eepw.com.cn/article/201612/342188.htm

　　当前的卷积神经网络由10~20层ReLUs，数百万个权值及数十亿个连接组成。两年前，训练如此庞大的网络可能需要数周时间，而随着硬件、软件和算法并行化(algorithm parallelization)的进步，训练时间已经缩短至几个小时。

　　卷积神经网络的视觉系统良好表现促使包括谷歌、Facebook、微软、IBM、雅虎、推特和Adobe在内的多数主要科技公司以及数量激增的创业公司开始启动研发项目，部署基于卷积神经网络的图像识别产品和服务。

　　卷积神经网络易于在芯片或现场可编程门列阵(FPGA)中得以高效实现。为了实现智能手机、相机、机器人和无人驾驶汽车上的实时视觉应用，NVIDIA、Mobileye、因特尔、高通和三星等许多公司都正在开发卷积神经网络芯片。

　　分布式表征和语言处理

　　深度学习理论显示，与不适用分布式表征的经典学习算法相比，深度网络有两处异常明显的优势。这些优势源于节点权重(the power of composition)以及底层数据生成分布具有适当的组成结构。第一，学习分布式表征能够将通过训练而学习获得的特性值泛化为新的组合(例如，n元特征有2n 组合可能)。第二，深度网络中的表征层相互组合带来了另一个指数级优势的潜力(指数性的深度)。

　　多层神经网络的隐藏层学会以一种易于预测目标输出的方式来再现网络输入。一个很好的示范就是训练多层神经网络根据局部文本中的前述语句预测下一个词。文本的每个词表示成网络中的N分之一向量，也就是说，每个成分的值为1，余下的为0。在第一层中，每个字创建一个不同模式的激活或单词向量(如图4所示)。在语言模型中，网络中的其他层学习如何将输入的单词向量转化成输出单词向量来预测下一个单词，也能用来预测词汇表中单词作为文本中下一个单词出现的概率。正如学习分布表征符号文本最初展示的那样，网络学习了包含许多激活节点(active components )、且每一个节点都可被解释成一个单词独立特征的单词向量。这些语义学特征并没有在输入时被清晰表现出来。而是在学习过程中被发现的，并被作为将输入与输出符号结构化关系分解为微规则(micro-rules)的好方法。当词序列来自一个大的真实文本语料库，单个微规则并不可靠时，学习单词向量也一样表现良好。当网络被训练用于预测新文本中的下一个词时，一些单词向量非常相似，比如Tuesday和Wednesday，Sweden和Norway 。这种表征被称为分布式表征，因为它们的元素(特性)并非相互排斥，且它们构造信息与观测到的数据变化相对应。这些单词向量由所习得的特性组成，这些特性并非由科学家们事先决定而是由神经网络自动发现。现在，从文本中习得的单词向量表征被非常广泛地使用于自然语言应用。

　　表征问题是逻辑启发与神经网络启发认知范式争论的核心问题。在逻辑启发范式中，一个符号实体表示某一事物，因为其唯一的属性与其他符号实体相同或者不同。它并不包含与使用相关的内部结构，而且为理解符号含义，就必须与审慎选取的推理规则的变化相联系。相比之下，神经网络使用大量活动载体( big activity vectors)、权重矩阵和标量非线性，实现一种快速「直觉」推断，它是轻松常识推理的基础。

　　在介绍神经语言模型前，语言统计模型的标准方法并没有使用分布式表征：它是基于计算短符号序列长度N(称为N-grams，N元文法)出现的频率。N-grams可能出现的次数与VN一致，这里的V指的是词汇量的大小，考虑到词汇量大的文本，因此需要更庞大的一个语料库。N-grams把每一个词作为一个原子单位，因此它不能在语义紧密相关的单词序列中，一概而论，但是，神经语言模型可以实现上述功能，因为它们将每个单词与真实特征值的向量关联起来，并且语义相关的单词在该向量空间中更为贴近。

　　图4|已完成学习的单词向量的可视化展现

　　左边介绍了为了建模语言而习得的词汇表征，通过使用 t-SNE算法[103]非线性映射至二维空间中以便于观察。右边是一个由实现英-法互翻的递归神经网络学习短语的二维空间表示。由图可知，语义或排序相似的单词表征映射较为接近。词汇的分布式表征通过使用反向传播获得，以此来学习每个单词的表征形式及预测目标数量的功能，比如序列中的后续单词(如语言建模)或者翻译文字的全部序列(机器翻译)。

　　递归神经网络

　　最初引入反向传播时，最令人激动的应用便是训练递归神经网络(简称RNNs)。对于那些需要序列连续输入的任务(比如，语音和语言)，RNNs是上乘之选(图5)。RNNs一次处理一个输入序列元素，同时维护隐式单元中隐含着该序列过去所有元素的历史信息的「状态向量」。当我们考虑隐式单元在不同的离散时间步长的输出，就好像它们是在多层网络深处的不同神经元的输出(图五，右)如何利用反向传播训练RNNs，一目了然。

　　RNNs是非常强大的动力系统，但训练它们也被证实存在一些问题，因为反向传播梯度在每个时间间隔内或增长或下降，因此，一段时间之后通常会导致结果激增或者降为零。

　　因先进的架构和训练的方式，RNNs不仅被证实擅长预测文本中下一个字符或句子中下一个单词，还可应用于更加复杂的任务。例如，某时刻阅读英文句子中的单词后，一个英语的「编码器」网络将被生成，从而帮助隐式单元的最终状态向量很好地表征句子所传达的思想。这种「思想向量(thought vector)」可以作为一个集大成的法语「编码器」网络的初始化隐式状态(或额外的输入)，其输出为法语翻译首单词的概率分布。如果从概率分布中选择一个特定首单词作为编码网络的输入，将会输出翻译句子中第二个单词的概率分布，依此类推，直到停止选择为止。总体而言，这一过程是根据英语句子的概率分布而生成的法语单词序列。这种近乎直接的机器翻译方法的表现很快和最先进(state-of-the-art)的方法不相上下，同时引发人们对于理解句子是否需要使用推理发掘内部符号表示质疑。这与日常推理中涉及到根据合理结论类推的观点是匹配的。

　　除了将法语句子翻译成英语句子，还可以学习将图片内容「翻译」为英语句子(如图3)。编码器是一种在最后隐层将像素转换为活动向量的深度卷积网络。解码器是一种类似机器翻译和神经网络语言模型的递归神经网络。近年来，引发了人们对深度学习该领域的热议。RNNs一旦展开(如图5)，可被视作是所有层共享同样权值的深度前馈神经网络。虽然它们的主要目的是长期学习的依赖性，但有关理论和经验的例证表明很难学习并长期储存信息。

　　为了解决这一问题，一个扩展网络存储的想法出现。第一种方案是采用了特殊隐式单元的LSTM，该自然行为便是长期的保存输入。一种类似累加器和门控神经元的称作记忆细胞的特殊单元：它通过在下一个时间步长拥有一个权值并联接到自身，从而拷贝自身状态的真实值和累积外部信号，但这种自联接是另一个学习并决定何时清除记忆内容的单元的乘法门所操控。

　　LSTM网络最终被证明比传统的递归神经网络(RNNs)更为有效，尤其是，每一个时间步长内有若干层时，整个语音识别系统能够完全一致地将声学转录为字符序列。目前，LSTM网络及其相关形式的门控单元同样也用于编码与解码网络，并在机器翻译中表现良好。

　　过去几年里，几位学者提出一些不同的方案来增强RNNs存储器模块。这些建议包括，神经图灵机——通过加入RNNs可读可写的“类似磁带”的存储来增强网络，而记忆网络中的常规网络通过联想记忆来增强。记忆网络在标准的问答基准测试中表现良好，记忆是用来记住稍后要求回答问题的事例。

　　除了简单记忆化、神经图灵机和记忆网络被用于通常需要推理和符号操作的任务以外，还可以教神经图灵机「算法」。除此以外，他们可以从未排序的输入符号序列(其中每个符号都有与其在列表中对应的表明优先级的真实值)中，学习输出一个排序的符号序列。可以训练记忆网络用来追踪一个设定与文字冒险游戏和故事的世界的状态，回答一些需要复杂推理的问题。在一个测试例子中，网络能够正确回答15句版的《指环王》中诸如「Frodo现在在哪?」的问题。

　　图5 |一个递归神经网络在时间中展开的计算和涉及的相关计算

　　人工神经元(例如，隐式样单元分组节点在时间t的标准值下)获得其他神经元的输入——在之前的步骤中(黑色区域呈现，代表一步延迟，如左)。这样，一个递归神经网络可由xt的输入序列元素，映射到一个输出序列与元素ot，每次ot值取决于所有前面的xtʹ(tʹ≤t)。相同的参数(U,V矩阵W)在每步中使用。许多其他结构是可行的，包括一个变体的网络可以生成的输出序列(例如，词语)，每一个都作为下次的输入步骤。反向传播算法(图1)可以直接应用于计算机图形展开网络，并对所有的标准陈述和参数，计算其总误差的导数(例如，生成正确的输出序列的对数概率)。

　　深度学习的未来

　　无监督学习促进了人们重燃对深度学习的兴趣，但是，有监督学习的成功盖过了无监督学习。虽然我们没有关注这方面的评论，但是，从长远来看，我们还是期望无监督学习能够变得更加重要。(因为)人类和动物的学习方式大多为无监督学习：我们通过观察世界来发现它的结果，而不是被告知每个对象的名称。

　　人类视觉是一个智能的、基于特定方式的利用小或大分辨率的视网膜中央窝与周围环绕区域对光线采集成像的活跃的过程。我们希望机器视觉能够在未来获得巨大进步，这些进步来自于那些端对端的训练系统，并集合卷积神经网络(ConvNets)和递归神经网络(RNNs)，利用强化学习来决定走向。结合了深度学习和强化学习的系统尚处在婴儿期，但是，在分类任务上，它们已经超越了被动视觉系统，并在尝试学习操作视频游戏方面，产生了令人印象深刻的结果。

　　未来几年，理解自然语言会是深度学习产生巨大影响的另一个领域。我们预测，当它们学习了某时刻选择性地加入某部分的策略，那些使用递归神经网络(RNNs)的系统将会更好地理解句子或整个文档。

　　最终，人工智能的重大进步将来自将表征学习与复杂推理结合起来的系统。尽管深度学习和简单推理已经用于语音和手写识别很长一段时间了，我们仍需要通过大量向量操作的新范式替换基于规则的字符表达操作。