"); //-->
集成(Ensemble,又称模型平均)是一种"古老"而强大的方法。只需要对同一个训练数据集上,几个独立训练的神经网络的输出,简单地求平均,便可以获得比原有模型更高的性能。甚至只要这些模型初始化条件不同,即使拥有相同的架构,集成方法依然能够将性能显著提升。
但是,为什么只是简单的"集成”,便能提升性能呢?

目前已有的理论解释大多只能适用于以下几种情况:
(1)boosting:模型之间的组合系数是训练出来的,而不能简单地取平均;
(2)Bootstrap aggregation:每个模型的训练数据集都不相同;
(3)每个模型的类型和体系架构都不相同;
(4)随机特征或决策树的集合。
但正如上面提到,在(1)模型系数只是简单的求平均;(2)训练数据集完全相同;(3)每个模型架构完全相同 下,集成的方法都能够做到性能提升。

论文链接:
https://arxiv.org/pdf/2012.09816.pdf
来自微软研究院机器学习与优化组的高级研究员朱泽园博士,以及卡内基梅隆大学机器学习系助理教授李远志针对这一现象,在最新发表的论文《在深度学习中理解集成,知识蒸馏和自蒸馏》(Towards Understanding Ensemble, Knowledge Distillation, and Self-Distillation in Deep Learning)中,提出了一个理论问题:

当我们简单地对几个独立训练的神经网络求平均值时,“集成”是如何改善深度学习的测试性能的?尤其是当所有神经网络具有相同的体系结构,使用相同的标准训练算法(即具有相同学习率和样本正则化的随机梯度下降),在相同数据集上进行训练时,即使所有单个模型都已经进行了100%训练准确性?随后,将集合的这种优越性能“蒸馏”到相同架构的单个神经网络,为何能够保持性能基本不变?
两位作者分别从理论和实验的角度给出了分析结果:
原因在于数据集中“多视图”(Multi-view)数据的存在。
朱泽园(Zeyuan Allen-Zhu)
朱泽园博士目前就职于微软总部 AI 研究院。南京外国语毕业,高一保送清华;2005、2006两年蝉联IOI金牌,2009年ACM总决赛亚军;清华毕业后在MIT读完硕博,后在普林斯顿进修博士后。

李远志(Yuanzhi Li)
另一位作者李远志,现任美国卡内基·梅隆大学(CMU)机器学习系助理教授,也是微软研究院的访问研究员。他于2010年到2014年在清华姚班进行本科学习,于2018年在普林斯顿大学获得博士学位,在斯坦福大学做了一年博士后之后,加入CMU担任助理教授。其研究方向主要为深度学习的基础理论与实践,凸优化算法与非凸优化算法设计,数据处理算法分析等。

1、深度学习的三大谜团
谜团 1:集成
观察结果显示,使用不同随机种子的学习网络
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
TCL王牌TCL3418KV4
应用材料公司亮相SEMICON China 2026
康佳中小屏幕“D”系列彩电开关稳压电源电路图
康佳BT4301彩电主开关稳压电源电路图
从质疑到验证:TI 八颗 DMD 芯片跨越 30 年的实验
源来如此|反激电源小贴士:同步整流如何“摆平”交叉调整率
大嘴业话:新iPad与LTE 谁绑架了谁
大嘴业话:乱谈三网融合
不止于精准:TI 赋能测试测量,加速芯片创新落地
祝各位中秋快乐!!!!
应对5G和6G射频设计持续攀升的复杂性挑战
继电器的安装与保护
A web server on the GBA? But why?!
三星面临大罢工,存储价格或加速上涨
康佳彩电T2983L、T2980H等机型开关稳压电源电路
工厂自动化概述
电动助力转向系统示范
基于ACPI的高精度微处理器系统温度监视芯片ADM1023
现代实时仿真开发系统-XDS560的价格
彩管厂家涨声一片彩电商家各执己见 彩电要涨价了吗?
使用DP83640实现标准网络IEEE 1588的同步演示
微软或将起诉OpenAI、亚马逊
计算机算法基础
日本最强AI被曝套壳DeepSeek
康佳T系列彩电开关稳压电源电路原理图
德州仪器推出 800 伏特数据中心电源架构
如何配置控制器局域网络位时序实现系统性能优化?
基于RI-R6C-001A IC与ISO15693标准的读卡器设计
手机中的大眼美女谁最靓
基于TI的12位数字温度计TMP101的应用(电子科技大学--沈其松)