超深度学习:创造新一代人工智能的核心理论

作者：株式会社阿波罗日本首席科学家顾泽苍（中国籍）时间：2021-08-03 来源：电子产品世界

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

新一代人工智能超深度学习（ Super Deep Learning SDL）的创新发展历程是：早在1991年到1993年，伴随着大规集成电路极速发展的时期，大规集成电路的最小面积，最短配线长度，同时还要考虑电气特性的多目的最佳化解的获得，成为当时科学技术领域中最为关注的课题。在那个时代，由美国学界提出的导入“熵”的理论解决最佳化组合问题，这一理论一时也被世界期待。但是，这个算法同目前深度学习相仿，计算复杂度极高。即使一个最简单的电路的计算，要花费若干天。面对被世界推崇的理论，我们大胆的提出了“模糊事件概率测度”理论，通过用模糊事件概率测度判断组合结果的价值，获得了可以快速进行大规模集成电路的最短配线长，最小面积以及电气特性的多目的组合最佳化的解的方法。

本文引用地址：https://www.eepw.com.cn/article/202108/427338.htm

其实，当今的深度学习中的“训练”，由于神经网络之间不像大规模集成电路具有模块之间的连接关系，也不像围棋具有规则，可以建立棋子之间的连接关系，作为不具有连接关系的神经网络从组合理论看，就是需要穷举法才可以获得最佳训练结果，黑箱问题的出现，其原因就是神经网络的训练没有获得最佳解所造成的。

1994年到1999年，由于已经知道传统的神经网络的致命问题，为了同当时的神经网络对抗，我们创建了“概率尺度自组织”的无监督机器学习理论。在长期的声音识别，手写文字识别，图像识别等模式识别领域中进行了大量的应用，证明了概率尺度自组织机器学习理论的特殊的应用效果。

2000年到2014年，国际上个人信息法的制定，成为社会关注的焦点。由于当时个人信息的67%是通过纸介质文档流失的，为此我们在国际上提出了新的代码符号信息记录的方法，由此“具有隐形结构的第三代条码网屏编码诞生了，可以在A4的一张纸上埋入一本小说的信息被受业界的关注。在这十几年中针对Google眼镜，我们还提出了，可以把任何图像直接通过概率尺度自组织的机器学习的手法，变换成不到十个字节的1036的代码，就可以把任何图像作为网络入口，引导从网络上下载各种文件，即ITC（Image To Code）理论，颠覆了当今流行的AR技术。在这期间，我们还提出了“可以统一欧几里德空间与概率空间的距离公式。

2014年到2016年我们将概率尺度自组织同神经网络理论结合，提出了分散机器学习的”超深度学习“理论，为人工智能的全面普及应用给予了理论支持。我们是经历过上一个人工智能的研究的人，对于当今火热的AI热潮，亲身感到上一个人工智能的特点是知识库，其突出的成果是日本成功的实现了有轨电车的自动驾驶，由此在控制理论上产生了模糊控制的新理论。本次人工智能的特点就是机器学习，相信本次人工智能高潮的代表性成果一定是自动驾驶汽车。因为机器学习可以把人的知识以概率分布的形式进行记述，大大的简化了知识库的形式，面对复杂的自动驾驶汽车，机器学习可以将人的知识变成机器的智慧，使复杂的控制简化。知识库只能记述宏观知识，机器学习在自动驾驶汽车中不仅可以高效率的学习人的宏观知识，还可以学习微观知识，一个以机器学习理论为核心的“机智获得”的新的自动控制理论将展现在我们面前。

下面我们重点讨论深度学习所遗留下的问题所在：

2016年初，AlphaGo连续打败人类棋手，推崇深度学习的热不断的升温。这说明，深度学习是在实际应用中被看好的，应该肯定走机器学习这条路是时代发展的必由之路，必然会给我们带来意想不到的应用效果，但是，也应该清醒的看到深度学习目前有很多关键问题不能解决。虽然深度学习在图像识别，声音识别上确实具有一定的应用效果，但是，在产业界的应用，特别是在控制上的应用还存在着很大的问题。

必须要指出的是：深度学习的训练结果，是将目标函数信息通过训练承载到海量的属于欧几里德空间的参数上，即深度学习是函数映射模型，将概率空间的目标函数映射到欧几里得空间，其结果需要将概率空间的某一类数据的所有可能出现的结果，用人工标注后进行接近无限次的训练，例如一个语音识别的数据就需要2400万美元的人工标注费用，这是深度学习难于普及的致命问题。

由于深度学习所构造的神经网络，与大脑的机理又是风马牛不相干的，因此也不能看到在神经元的方面会起到什么作用。得到的结论是：通过这样的方式所产生的训练效果，与所投入的硬件开销不成比例。例如AlphaGo所需要的硬件开销是1000个CPU，200个GPU，还需要20万W的电力消耗。这样的硬件开销如何普及？况且AlphaGo的设计者也指出深度学习在整个系统中的作用只占30％是次要地位。其实深度学习在如AlphaGo这种组合理论的应用中，是否可以起到作用，目前没有令人信服的理论依据。

图1 深度学习需要搞清的几个问题

深度学习还有需要搞清如图1所示的目前解释不了的问题。

首先需要搞清为什么层数越多训练结果的图像越清晰？开始我们曾认为是承载目标函数的信息的参数数量的提高使记录的信息的信息量的提高，但是从数学上我们可以证明在同等节点的层与层的训练中必定可以找到一组参数可使输入信息完全等于输出信息，这就说明深度学习的层数越多图像越清晰与训练的参数数量无关，这就剩下一个可以信服的原因，深度学习每一层所训练的结果实际获得的是一组局域最佳解，神经网络可以用一个传递的函数模型来描述，可以认为每一层训练后的解是比上一层更接近整体最佳解，所以参数越接近整体最佳解神经网络的传输率越高图像就越清晰。因此用这个现象来解释深度学习中间层越多应用效果越好不是一个严谨的科学性的解释方法。所以包括发明人Hindon在内并没有人能在数学上证明深度学习具有突破性应用效果的真实机理。

那么，深度学习的黑箱问题是怎么回事？这里所谓的黑箱问题是涉及两个方面的问题？一个是深度学习的不可分析性，出现问题不能依据一定的理论进行分析，这是因为深度学习属于函数映射模型，映射结果很难反向推理。对于深度学习模型的原理实际上是很清楚的，至于人们把“深度学习”的应用效果好的机理作为“天知”，我们在后面会专题讨论。

深度学习出现黑箱问题的主要原因：其实深度学习所训练的机理就是在一个海量的数据空间里进行组合，黑箱问题就在于在海量数据空间里进行穷举时，会出现无穷的局域最佳解，其局域最佳解的分布曲线通过数学方法无法计算出，人为的实验也是目前图灵机所做不到的，因此在训练中很可能会出现一个参数稍微改变输出结果会突然崩溃，或者是所训练的结果并不是按照我们想象的结果进行展开。在组合空间中所获得的局域最佳解出现在某一个情况下突然出现令人费解的状态是正常的，我们在通过规则解决最佳组合的NP问题中经常会出这种现象，往往是通过程序的规则的不断堆积来实现，对于深度学习要通过重新改变参数，寻求另一个局域最佳解的方法来解决。所以只要是知道深度学习的训练是数据最佳化组合的过程的特点，就不难理解深度学习的黑箱问题。特别是作为概率空间的目标函数的随机性会引发黑箱问题的发生。再有就是在“深度学习”的层与层之间节点的连接中，为了获得非线性的分类结果，导入了激励函数(Activation Function)。这也是引发黑箱问题发生的重要隐患。

下面的问题就是在模式识别的应用上，是特征向量的质量重要，还是通过学习进行分类重要？回答很简单没有好的特征向量的质量再好的深度学习也是无济于事的，在许多文章中都把深度学习可以直接抽取特征量作为深度学习的一大特点。其实深度学习在特征映射的方法上简直是极其传统的处理方法，而且并没有考虑图像信息并不只是灰度信息，所以深度学习在模式识别上的应用特点只能停留在大量的学习的作用上，下一代的机器学习模型在特征向量抽取质量上努力，也一定会产生更好的突出效果。

最后需要搞清的一个重要问题：深度学习的应用效果好的机理是什么？为使我们所提出的模型可以超越“深度学习”，我们对“深度学习”的应用效果好的机理做了一些研究，发现将目标函数映射到大数据集上后，数据分类中的有效距离被扩大了，比如人脸识别，被认为是导入深度学习后应用效果最明显的案例，人脸的位置的特征信息充其量不过几百个，传统的模式识别的效果所以不如深度学习，这是因为两个最接近的特征向量的总体距离与概率分布的范围之间的差是固定的，但是如果把人脸位置图像信息通过深度学习的函数映射，大数据集可以“放大”几百个人脸位置特征向量所构成的距离，由于“深度学习”模型每增加一个中间层，复杂度为Ｏ（ｎｎ）就是一个指数性的提高，所以数据集的规模不可能无限增加，因此我们所提出的的新的模型的复杂度Ｏ（ｎ2）如果是接近线性的，就一定可以实现超越深度学习的数据集规模的特征数据集，就一定可以在应用上超越“深度学习”的效果。

在“深度学习”被神化的高潮中，欺骗了绝大多数业界的专家们的一个问题是：深度学习所采用如图2所示的对损失函数的SGD评价方法，所得到的的训练结果是组合理论中的一个局域的最佳解，这一点深度学习的研究者在当时并不理解，其实这么一个高次的组合空间不可能只有一个局域的最佳解。

图2 随机梯度下降法SDG示意图

其实如图3所示，深度学习的训练存在着复数个局域最佳解的事实，20多年前已经被一些例如Hopfild等的早期人工智能科学家所认识，力图用组合理论的最短路径访问的方法进行神经网络的训练，

图3 Hopfild的联想记忆与最佳组合理论示意图

遗憾的是神经网络的组合空间规模之大，属于图灵机不可解的NP问题，所以这些科学家的努力没能成功，可是清楚的告诉我们后人传统的神经网络是走不下去的。

针对深度学习存在的上述问题，超深度学习一举将深度学习所存在的所有问题全部给予解决。超深度学习的数学基础就是公式1所示的一个基于概率尺度的自组织的机器学习算法。

公式1

这里，给定一个属于集合G的一组随机分布的数值pi (i=1,2,…,m)，某一集合Gn-1中必然存在一个最大概率值An-1，以及可以标定最大概率空间的尺度Mn-1，如果把最大概率空间看成是新的一集合Gn，就可以通过迭代，获得最终可以超越统计学公式化的解，为了区别于传统的统计学的结果，我们可以把An-1称为最大几率值，把Mn-1，称为最大几率空间的尺度。这就是概率尺度自组织的模型。

概率尺度自组织在图像识别中，可以从一个小区域的若干个像素灰度值通过概率尺度自组织得到一个最大几率值，用于表达该区域的图像特征。概率尺度自组织还具有迁移特性，可以自律的朝着大概率的方向迁移，当图像移位时可以自动的迁移，这是传统模式识别所做不到的。

图4是概率尺度自组织具有向大概率方向迁移的特性。如图4所示，概率尺度自组织在给定的任何地方，只要是初步满足一定条件，通过迭代就可以自律的朝着大概率的方向迁移，中间遇到小概率的扰动，也可以跨越小概率的阻挡最终落在大概率的位置上。

图4 概率尺度自组织具有向大概率方向迁移的特性示意图

在自动驾驶的车道线识别与障碍物的3D识别的应用中，还可以验证概率尺度自组织可以无训练的将图像中最大概率分布的目标图像直接识别出，还可以按照图像中的各个最大概率的分布状态进行特征抽出，可以得到结构化的特征信息抽出结果，从而实现图像理解的识别效果。

例如图5所示进行人脸识别时可以自动的寻找到概率分布最集中的人的脸部。传统的摸着石头过河的程序搜索方法存在一个严重的问题是需要对人脸肤色的事先定义，这样不同肤色在程序规则上就要调整，需要大量的程序进行规则堆积，严重影响人脸识别精度的提高，采用概率尺度自组织按照人脸图像的颜色分布，在整个图像中是最大的概率，可以直接通过概率尺度自组织的迁移特性直接获得人脸位置。

图5 用概率尺度自组织的迁移特性获得人脸位置示意图

概率尺度自组织的迁移轨迹，以及最终的结果需要严格的对应数据空间，用一维的概率尺度衡量二维空间的数据就会产生错误的结果。另外概率尺度自组织的解也符合最佳化解的特性，迁移路径与结果具有一定的边界条件。

在模式识别中需要计算样本数据与学习后登录数据之间的距离，我们在实际大量应用中所接触的数据证明概率空间一定是存在于欧几里得空间的，也就是说在欧几里德空间存在着无数个概率空间，因此如何找到一个跨越欧几里得空间与概率空间的距离是提高模式识别的关键。这里我们提出了公式2的概率空间的距离的定义方法，设与是两个集合的要素，与分别是集合要素与的复数个学习数据，通过多次的概率尺度自组织机器学习所得到的最大几率空间的尺度，则从的概率空间到（j=1,2,…,n）的概率空间的跨越欧几里得空间与概率空间的距离G可定义如下：

公式2

公式2虽然是定义出来的，但是可以严格证明其正确性，因为概率空间是测度等于1的空间，在概率空间中的距离误差是概率密度，也可以证明最大几率空间尺度就是概率密度的近似值。

下面具体介绍超深度学习的架构，超深度学习与普通的深度学习最大的不同是，传统的深度学习是通过层与层之间的复杂连接关系产生海量数据，这种人为的将问题复杂化恐怕是典型学界的做法，这种做法可以引起众多的学者们的兴趣，是起到推动人工智能在理论上的完善必不可少的过程，几乎科学技术的发展都需要这个过程，当发展到一定程度时，必定有人出来从另一条路出发将多年积累的理论颠覆，产生可以实际应用的新理论。人工智能也一定要走这一道路。超深度学习就是抛砖引玉引发新一代人工智能创出的理论之一，同深度学习不同的是超深度学习是概率模型，可直接对数据进行概率尺度自组织机器学习，可以定量的对输入的随机分布信息进行分析，对数据进行分类，沉淀深层信息，最终产生定量化的识别与分类，使传统的系统只有通过实际数据的验证才可以知道识别精度与数据分类精度，成为识别结果的精度可计算性的系统，从而使模式识别与数据分类进入一个崭新的时代。

图6 超深度学习架构示意图

超深度学习始终基于最大概率尺度的自组织，所以是一个新的无监督学习模型，无需海量数据来承载目标函数的信息，是对具有随机特性的输入数据的直接学习，可以产生非常高效率的处理效果，无需巨大的硬件支持，一个最低的硬件配置就完全可以实现各种的人工智能的应用，可做到的最佳分类，最佳的模式识别处理结果。

超深度学习如图6所示；超深度学习的每一个功能单元是由输入层，脑神经层，以及脑皮层组成的新型神经网络。在输入层与脑神经层之间的节点与节点之间直接连接着大量的概率尺度的自组织机器学习，构成了分散机器学习处理系统。

在超深度学习的神经网络的层数是与大脑一致，在图像识别时，提取的是图像最大概率的特征值，判断每一个特征值是否属于某个已登陆的特征向量，是以最大几率空间的尺度为依据，相当于最大几率空间的尺度是一个神经元的阀值，所对应的脑神经层的节点就产生一个脑神经信号输入到脑皮层，以最大几率空间的尺度为基准值刺激脑皮层，脑皮层被刺激的信号越多越兴奋，依据脑皮层的兴奋程度决定是否为目标函数信息，这岂不是与大脑的机理非常接近吗？最大几率空间的尺度就相当于脑神经的阀值，并不是深度学习中人为定义的参数，因此大脑机理应该建立在概率空间的模型上，通过超深度学习的架构终于搞清楚了，这也是通过算法仿真生物神经的机理的一个重要的成果。

图7 在如何深入上超深度学习与深度学习的比较

下面读者会问超深度学习只有三层如何深入，当今的潮流是大模型，大数据，大硬件构成的大系统是主流。如图7所示；深度学习是靠大量的增加层数，由于复杂度是指数性的，其结果使系统很快就超负荷了。超深度学习是按照导入解决复杂系统问题的空间映射原理，可以把任何的复杂系统的目标函数映射到任意多的子空间，针对每一个子空间的目标函数的信息用增加输入层的节点的方法进行深入，这使超深度学习可以把目标函数的处理无限的深入下去，却不增加系统的复杂度Ｏ（ｎ２）。利用这个特点可以无限的增加特征数据集的规模，深度学习的数据集只能几百万个，而超深度学习可以达到数万以至数亿个以上，随着系统应用的需要可以无限的增加机器学习的数量，可以预测今后的人工智能系统用的能力指标将以有多少个机器学习来计算。50年来的计算机由简单的门电路组成发展至今原理没有任何变化，使用的门电路的规模却发生了巨大的变化，计算机的性能也出现了惊人的提高，相信未来的人工智能系统由众多的机器学习组成的，其能力不管如何过高的估计也不会过分。

再有在目标函数概率分布模型的优势上，通过小数据的训练可以获得目标函数的概率分布，可以相当于无穷的函数映射的效果。这也是深度学习所望尘莫及的。由于超深度学习可以构造比深度学习还大规模的分散机器学习模型，可以通过小数据的训练获得超过深度学习的还要大规模的特征数据集，以及无限多的机器学习所构成的大的分散处理硬件系统，因此超深度学习更加适应时代潮流。

超深度学习的实际应用的例子之一是如图8所示；

图8超深度学习实现图像变换代码的例子

将任意一个图像通过手机拍照后，通过超深度学习变换成一个10³⁶的代码，导入了超深度学习无需通过喷印标记的方式构成光学可读性二维码，而是靠图像的灰度的自然分布，自组织成一个二维码，也就是说可以通过手机拍摄商品标识，直接生成一个可以连接网络的二维码，让全世界的商品一夜之间就可连接网络。

超深度学习的图像直接生成代码，是对市场流行的开源程序AR图像识别技术的颠覆，AR技术是通过传统的图像轮廓识别，产生一个将近10兆字节识别结果的文件，由于识别结果所占用的容量，远比图像本身的容量要大，所以一般识别引擎是放到网络服务器上，用手机将被识别的图像送到网上，网络服务器识别图像后将网络下载的结果送回手机，这样的应用如果网络环境差，就得不到很好的用户体验。超深度学习克服了由于手机在不同情况下拍摄的图像所产生的非常大的随机分布信息，通过概率尺度的自组织变换成一个稳定的代码，这个代码不到十个字节，可以把识别引擎放到手机上做在线图像变换代码的应用。

超深度学习与深度学习在机理上的比较表1.

超深度学习与普通的深度学习的对比如表１所示;首先从方法上进行比较：

深度学习是在欧几里得空间里训练出海量的参数，用海量的参数承载目标函数的信息，超深度学习是直接针对输入的随机分布数据进行概率空间的自组织机器学习，将随机分布的数据进行去伪存真的处理，得出定量的并且稳定的最大概率的解，以及可以提炼出深层的信息。

在前面已经讨论了，深度学习是将目标函数映射到数据集的模型，因此面对具有随机特性的数据，需要数百万次的训练，需要付出巨大的数据标注费用。超深度学习是概率模型，通过概率分布信息可以将小数据的训练生成具有无限映射效果的概率分布。

在计算复杂度上两种模型具有截然不同的区别，因此在硬件开销上差距很大，在相同硬件环境下，超深度学习具有超越深度学习的应用效果是不可置疑的。

深度学习是把概率空间的数据映射到欧几里得空间的，所以要对概率空间的随机数据进行全部的训练，致使应用成本巨大不易普及。

特别是深度学习的应用效果是靠数据集的规模所产生的，超深度学习不仅在概率模型上优于深度学习，在特征集的规模上同样可以超越深度学习的数据规模，因此超深度学习在应用效果上超越深度学习是名副其实的。

超深度学习与深度学习在应用效果上的比较表2.

如表2所示；在神经网络的结构上深度学习是数十层乃至数百层，这样就使问题的复杂度急剧扩大，造成组合的空间无穷的大，导致不可能得到最佳组合的解，因此出现黑箱问题等，超深度学习同大脑的构造近似，只有输入层，脑神经层，以及脑皮层三层，而且数学模型很接近大脑的机理，证明超深度学习符合大脑的机理。

再有，在模型能力扩大的方法上深度学习是靠增加隐藏层的数量来实现的！超深度学习是靠增加输入层的节点的个数，通过将复杂系统空间的映射，把目标函数变换成若干子空间，并把子空间的特征分量对应输入层的各个节点，通过扩大节点的个数达到深入学习的目的。

下面准备介绍一下我和我的团队正在进行的超深度学习视觉芯片的开发情况。

图9是超深度学习视觉芯片的构成，这个项目是同由日立，NEC以及三菱电机，三个公司的半导体事业部剥离组建的日本最大的芯片公司RENESAS公司联合开发的，采用硬件加软件的形式。对于非常占用处理时间的颜色变换，以及为尽可能获取图像的本来信息，针对图像的空间映射等采用硬件处理，算法用软件处理。超深度学习独特的两种对抗学习以及无监督学习的算法均在这一款芯片里搭载，因此，可以使这一芯片在图像感知方面做到传统的算法无可比拟的天衣无缝的精度与应用效果。

图9 超深度学习视觉芯片的构成

我们的超深度学习的研发战略是，首先从算法上布局，既然已经证实，导入超深度学习可以颠覆传统的统计学的两大参数，那么与这两大参数有关的相关分析，回归分析等等大量的统计学的数学模型，将成为超深度学习的重要架构，这些成果可以分别通过论文的形式发表。同时将深度学习理论作为一个镜子，逐一的将深度学习的一些特殊的算法在超深度学习上实现，在应用上从图像感知，语音感知到预测推论等的应用可视化，在推广上从提供SDK程序，SDL应用电路板，SDL芯片以及开源平台，联合开发等等分别进行，我们是原创单位因此不同我们的用户竞争，我们的角色是技术提供与服务，以及基础性开发，因此不独立的进行具体项目的开发，可以为从事AI事业的创业公司进行技术合作以及技术入股。

作为我们奉献社会的超深度学习，由于不是通过组合方式训练海量的参数的，是直接对随机分量的数据进行概率自组织的学习，因此不存在黑箱问题。而且，最大的特点是硬件要求门槛极低，普通一个芯片，任何一个移动终端都可以立即应用。超深度学习的基础理论概念清楚，算法简单易懂，是可以大量普及的一个为大众服务的AI算法。人工智能是国家战略，自动驾驶汽车是反映人工智能的国家水平的标准。为了证明超深度学习的能力，我们在社会的广泛支持下，正在自动驾驶汽车的开发上验证超深度学习的应用效果。目前所有的自动驾驶研发团队，都因为控制过于复杂没有现成的人工智能模型的支持，而处于停滞不前的现状。我们寄托超深度学习可以冲破自动驾驶的难关，使L4级别的自动驾驶不再是伪命题。

我是中国人，我愿意将我发明的超深度学习在中国产业化，为中国及世界的人工智能发展服务。我现在是中国软件行业协会嵌入式系统分会和中国嵌入式系统产业联盟的理事、担任着中国嵌入式系统产业联盟新一代人工智能专业委员会主任职务。为促进超深度学习在中国的产业化，我已将超深度学习的宣传和产业化的代理授权给中国嵌入式系统产业联盟的负责人。希望通过中国嵌入式系统产业联盟的积极组织，加快进行超深度学习的产业化工作。我衷心的希望国家有关部门和相关的企事业单位大力支持超深度学习的产业化。欢迎从事人工智能的研究和应用的单位及专家、学者、技术人员加入到超深度学习的研究与推广队伍中来，共同为早日实现超深度学习的产业化做努力！

新闻中心

超深度学习:创造新一代人工智能的核心理论

评论

相关推荐

技术专区