ECCV 2020 | 基于分割一致性的单目自监督三维重建

发布人：计算机视觉工坊时间：2021-06-09 来源：工程师

发布文章

概述

本文主要从二维图像及其轮廓的集合中，学习一个自监督的、单视图的三维重建模型，预测目标物体的3D网格形状、纹理和相机位姿。提出的方法不需要3D监督、注释的关键点、物体的多视图或者一个先验的网格模板。关键之处在于，物体可以表示为可形变部分的集合，在同一类别的不同实例中，每个部分在语义上是一致的。

利用这一点，可以有效地增强重构网格与原始图像之间的语义一致性，这大大减少了在预测物体的形状、相机位姿以及纹理时的模糊性。实验结果表明，这是第一个尝试解决单视图三维重建问题、没有使用特定类别的网格模型或者语义关键点的方法。

简介

同时从2D图像中恢复3D形状、纹理和相机位姿是一个高度不适定的问题，因为其固有的歧义。现存有很多方法解决这个问题，但是这些监督信息需要大量工作，因此将其泛化到许多缺乏此类注释的对象类别时非常具有挑战性。另一方面，只使用特定类别的单视图图像集合，而不使用其他监督信号学习重建仍然存在挑战。

原因在于，没有监督信号将导致错误的三维重建，一个典型的故障案例是由“相机-形状歧义”引起的。错误预测的相机位姿和形状导致渲染图像和物体边界与输入的2D图像和其轮廓非常匹配，如下图(c)和(d)所示。

有趣的是，人类可以通过联合部分来重建整体，例如鸟有两条腿、两只翅膀和一个头。通过观察物体的一部分，人类就可以粗略地推断出任何物体的相机位姿和3D形状。在计算机视觉中，相似的思想是通过变形模型的部分表达的，物体被表示为一组可以变形的零件。

受到这个idea的启发，作者实现了从图像和轮廓的集合中学习单视图的重建模型。利用二维和三维空间中的语义部分，以及它们的一致性来正确估计形状和相机姿态。

上图展示了语义一致性的自监督，(a)是相同类别的不同物体，(b)是通过自监督对每个部分进行语义分割，(c)是特定类别的规范语义UV映射，(d)是网格上的语义分割，后面表示单视图的3D网格重建和不同视角的重建结果。

总的来说，本文的主要贡献之处在于：进行单视图重建而不需要其他形式的监督信号；利用特定类别实例对象的语义部分不变性属性作为可变形的部件模型；通过迭代学习从头开始学习一个类别级的3D形状模板。

博客专栏