"); //-->
近年来,数据驱动的深度学习在人工智能系统中得到广泛应用。计算硬件的进步极大地推动了机器智能的发展,并促进了一种新兴的范式,即基于广泛数据训练的模型的知识转移。
与2D视觉和NLP相比,基于基础的视觉计算在3D社区中发展滞后。提出以下问题:是什么使得3D表示学习比2D视觉或NLP更具挑战性?
从以下三个角度提供一些分析性答案:
i. 架构不统一。先驱性架构如PointNet只能对3D坐标进行编码,而无法应用于在NLP和2D视觉中取得成功的掩码去噪自编码(DAE)。然而,Transformer架构现在已经弥补了这种架构上的差距,实现了跨所有模态格式的统一表示,并为扩展3D中的DAE带来了巨大潜力。
ii. 数据稀缺。与图像和自由形式语言相比,收集和标注3D或4D数据更加困难,通常需要更昂贵且密集的工作。此外,考虑到数据规模,3D数据严重匮乏。这促使了跨模态知识转移的使用。最近的研究要么与其他模态一起进行联合训练以实现更有效的对比,要么直接对在图像数据上预训练的2D Transformers进行微调。
iii. 模式差异。表1显示了语言、2D图像和3D点云的数据模式比较。可以观察到:
在上述分析的推动下,作者提出了将Autoencoders作为跨模态教师进行训练。
因此,ACT使预训练的Transformers成为自发的跨模态教师,为3D点云提供了语义丰富的掩码建模目标。
此外,进行了各种任务的大量实验证明了ACT预训练3D Transformers具有出色的泛化性能。
据知,本文首次证明了预训练的基础Transformer可以帮助3D表示学习,而无需访问任何2D、语言数据或3D下游标注。ACT是一个自监督的框架,可以推广到其他模态和任务,期望这能够推动更多类似ACT风格的表示学习的探索。
表1: 数据模式比较
自监督的3D几何处理表示学习目前在学术界引起了极大的兴趣。
传统方法是基于重建的几何理解预任务构建的,例如点云部分重排序,方向估计,局部和全局重建,流一致性,变形和遮挡。
与此同时,Xie等人在PointContrast中提出了学习增强点云之间的区分性视角一致性的方法。在这个方向上,还提出了许多相关工作。
最近,许多工作提出了应用点云Transformer的自编码器(DAE)预训练的方法,并取得了显着的成功。
作者遵循这种DAE-style表示学习范式,但与之前的方法不同,工作旨在使用由预训练基础Transformer编码的潜在特征作为掩码建模目标。
跨模态的3D表示学习跨模态的3D表示学习旨在利用除了3D点云之外的更多模态内在的学习信号,例如,2D图像被认为具有丰富的上下文和纹理知识,而自由形式的语言则具有密集的语义信息。主流方法基于全局特征匹配的对比学习进行开发。
通过利用几何先验信息进行密集关联,另一项工作探索了细粒度的局部特征匹配。
最近,通过直接使用经过监督微调的预训练2D图像编码器取得了很大的进展。
一些工作也探索了预训练基础模型是否可以帮助3D学习。然而,本文作者的方法:
(1)不使用预训练的2D或语言模型作为推断的主干模型;
(2)在无下游3D标注的自监督预训练过程中探索使用来自其他模态的预训练基础模型;
(3)不需要成对的点-图像或点-语言数据。
除了2D图像之外,还有一些工作提出利用自然语言进行对比的3D表示学习,零样本学习,以及场景理解。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
基于VisitionX制造智能眼镜
前Qwen负责人林俊旸创业,目标融资规模为数亿美元
国家“算力网”:像用水用电一样用AI
研华科技与Axelera AI深化战略合作 加速推动基于Europa平台的边缘AI创新
EEPW2018年6月刊(5G)
尼吉康的事业介绍
海联达(Aigale)Ai-HD1 无线全高清套件拆解
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
WTC-AI型太阳能热水器电路图
AI/HPC新世代 COUPE光互连扮要角
电子元件培训教材
基于Ai-WB2-12F与Rd-04的雷达检测系统
AI聊天机器人能像医生一样推理吗?
联发科加速AI在地化应用布局
WTC-AI太阳能热水器电路图
EEPW2018年3月刊(工业物联网)
重新构想AI电源:塑造AI加速的未来(第三部分)
万家乐JSYZ5-AI燃气热水器电路图
人工智能是如何帮助阻止造假者的?
存储器转型AI战略资源 台厂受惠
思科凭借通用商用芯片与光模块赢得 AI 领域客户
基于Microchip MCU的AI/ML培训教程2
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
继上次海联达Ai-ap100拆机之电源改造
基于Microchip MCU的AI/ML培训教程3
基于Microchip MCU的AI/ML培训教程1
被动元件新周期:AI时代高端化、服务器化重构MLCC产业格局
iCAN-4017 AI功能模块
CSR8670CSR8675智能语音Alexa蓝牙方案开发
释说芯语16:硬科技:构建企业未来之路(附PPT)