"); //-->
来源:Deephub Imba
MAE是一种使用自监督预训练策略的ViT,通过遮蔽输入图像中的补丁,然后预测缺失区域进行子监督与训练。尽管该方法既简单又有效,但 MAE 预训练目标目前仅限于单一模态——RGB 图像——限制了在通常呈现多模态信息的实际场景中的应用和性能。
在新论文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 中,来自瑞士洛桑联邦理工学院 (EPFL) 的团队提出了 Multi-modal Multi-task Masked Autoencoders (MultiMAE),也是一种预训练策略,可以对掩码进行自动编码处理并执行多模态和多任务的训练。MultiMAE 使用伪标签进行训练,使该框架适用于任何 RGB 数据集。
MultiMAE 的设计基于传统的 Masked Autoencoding,但在两个关键方面有所不同:
1、除了 RGB 图像,它还可以选择接受输入中的附加模态信息(因此是“多模态”)2、其训练目标相应地包括 预测除 RGB 图像之外的多个输出(因此称为“多任务”)。
从架构上看,MultiMAE 的编码器是一个 ViT,但每个额外的输入模态都有补丁的投影层和一个带有可学习的额外全局令牌嵌入,类似于 ViT 的类令牌。所以仅加载所需的输入投影并忽略所有其他投影的MultiMAE 预训练权重可以直接用于标准单模态 ViT。
为了执行语义分割补丁投影,论文的作者用学习的 64 维的类嵌入替换每个类索引。并且仅对可见标记的随机子集进行编码,这样可以显著的加速计算和减少内存使用,并且使用了具有三种密集输入模态的 MultiMAE 多模态预训练。每个任务使用一个单独的****,因此****的计算随着任务的数量线性扩展,并且只增加了最小的成本。
在他们的研究中,图像分类、语义分割和深度估计这三个任务上对 MultiMAE 进行了预训练,并在 ImageNet-1K 上进行伪标记,然后在 ImageNet、ADE20K、Taskonomy、Hypersim 和 NYUv2 数据集上进行微调。
结果表明,当 只使用RGB 进行微调时,MultiMAE 保留了常规 MAE 的优势,并且它还可以利用深度等其他模态,例如使用伪标记深度或语义分割来提高性能。MultiMAE 预训练策略可以显著提高迁移性能。
该项目的在 GitHub 上也公开了代码、预训练模型和交互式可视化。论文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 公开资料汇总地址如下:https://multimae.epfl.ch/
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
基于Microchip MCU的AI/ML培训教程2
WTC-AI太阳能热水器电路图
海联达(Aigale)Ai-HD1 无线全高清套件拆解
电子元件培训教材
研华 COMPUTEX 首度整合全球伙伴大会 强化全球边缘 AI 生态系统联结
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
WTC-AI型太阳能热水器电路图
iCAN-4017 AI功能模块
EEPW2018年3月刊(工业物联网)
释说芯语16:硬科技:构建企业未来之路(附PPT)
Nigel AI赋能LabVIEW,NI用AI重塑测试新边界
赋能边缘端对话式人工智能
基于Ai-WB2-12F与Rd-04的雷达检测系统
尼吉康的事业介绍
EEPW2018年6月刊(5G)
基于Microchip MCU的AI/ML培训教程1
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
紧凑型集成连接器模块抑制噪声 为人工智能应用实现以太网供电
人工智能是如何帮助阻止造假者的?
GPU:面临工作负载转变的高吞吐架构
基于Microchip MCU的AI/ML培训教程3
万家乐JSYZ5-AI燃气热水器电路图
英伟达CFO:我们早就知道内存大涨价要来了
AI竞争进入下半场:从“卷参数”到“卷单价”
AI 驱动估值飙升:光通信半导体企业市值暴涨
基于VisitionX制造智能眼镜
CSR8670CSR8675智能语音Alexa蓝牙方案开发
继上次海联达Ai-ap100拆机之电源改造
AI热潮引发多层陶瓷电容MLCC供应短缺
爱立信携手 Net Feasa 布局海事网络 融合公网级通信与智能体 AI 赋能航运