超强实操！手把手教学Kinect深度图与RGB摄像头的标定与配准

发布人：计算机视觉工坊时间：2022-06-17 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

作者 | aipiano @CSDN

编辑 | 3D视觉开发者社区

导读

Kinect作为微软推出的XBOX360体感周边外设，具有获取深度信息的能力。但由于Kinect自身RGB摄像头分辨率有限，其清晰度也略低，对于较高要求的开发者来说不够适用。因此，很多开发者都会使用第三方摄像头代替Kinect摄像头，但是二者之间如何配准一直是个问题。本篇就“如何将Kinect的深度图与第三方摄像头的RGB图像对准”的问题进行了详细地讲解与手把手地教学，简单易懂，十分推荐阅读。

自从有了Kinect，根据深度图提取前景就非常方便了。因此出现了很多虚拟现实、视频融合等应用。但是，Kinect自身的RGB摄像头分辨率有限，清晰度也不及一些专业摄像头，因此有了用第三方摄像头代替Kinect摄像头的想法。现在的问题是，如何将Kinect的深度图与第三方摄像头的RGB图像对准？

当使用Kinect的RGB时，有方便的MapColorCoordinatesToDepth和MapDepthCoordinatesToColor方法可以使用，这些函数将深度图和RGB对准到一起，从而可根据深度图准确地提取出RGB中的前景。但打算使用第三方摄像头时，这些函数都没有用了，它们不可能知道我们所用摄像头的参数以及空间位置，因此只能靠自己标定的方法解决这一问题。

在标定之前，先要固定好Kinect和摄像头的位置，让深度摄像头和RGB摄像头的像平面尽量平行，距离也不要隔得太远，就像下面这样:

一、RGB摄像头的标定

RGB摄像头的标定想必大家都很熟悉，最常用的就是棋盘法。用待标定的摄像头拍摄多幅不同视角下的棋盘图片，将这些图片扔给OpenCV或Matlab，从而计算出该摄像头的内参以及对应于每一幅图像的外参。这里就写写我在标定过程中的一些感受和经验吧。

1、标定所用的棋盘要尽量大，至少要有A3纸的大小；

2、棋盘平面与摄像头像平面之间的夹角不要太大，控制在45度以下；

3、棋盘的姿势与位置尽可能多样化，但相互平行的棋盘对结果没有贡献；

4、用于标定的图片要多于10张；

5、注意设置好摄像头的分辨率，长宽比最好和深度图的相同，比如1280x960（4:3）。

以下是一些用于标定的样图：

二、深度摄像头的标定

深度摄像头看起来和RGB摄像头差别很大，实际上有很多相似之处。就Kinect而言，其通过一个红外散斑********红外光束，光束碰到障碍物后反射回深度摄像头，然后通过返回散斑之间的几何关系计算距离。其实，Kinect的深度摄像头就是一个装了滤波片的普通摄像头，只对红外光成像的摄像头（可以这么认为）。

因此要对其标定，只需用红外光源照射物体即可，LED红外光源在淘宝上就20元一个。还有一点必须注意，在拍摄红外照片时，要用黑胶带（或其他东西）将Kinect的红外****完全挡住，否则其发出的散斑会在红外照片中产生很多亮点，不利于棋盘角点的检测。以下是对应于上面RGB图像的红外图：

三、计算内参

得到以上图片之后，就可以分别对RGB摄像头和深度摄像头计算内参了。可以使用OpenCV，自己写一小段程序，然后把图片扔进去。也可以使用著名的Matlab Camera Calibration Toolbox。

自己写代码累，Matlab我没装，因此我使用 GML Calibration Toolbox，可以在这里下载：http://graphics.cs.msu.ru/en/node/909 。这是一个C++写的标定程序，有友好的用户界面，精度也不错，使用非常方便。

分别将RGB和红外的照片扔进去，得到RGB摄像头的内参（包括畸变参数）：

=== Intrinsic ===

554.952628 0.000000 327.545377

0.000000 555.959694 248.218614

0.000000 0.000000 1.000000

=== Distortion ===

0.025163 -0.118850 -0.006536 -0.001345

和Kinect深度摄像头的内参（这个对所有Kinect应该都是差不多的）：

=== Intrinsic ===

597.599759 0.000000 322.978715

0.000000 597.651554 239.635289

0.000000 0.000000 1.000000

=== Distortion ===

-0.094718 0.284224 -0.005630 -0.001429

四、配准

现在说说怎么配准，由于Kinect可以得到真实点的三维坐标，因此深度图的配准可以用一些简单特殊的方法。

设P_ir为在深度摄像头坐标下某点的空间坐标，p_ir为该点在像平面上的投影坐标（x、y单位为像素，z等于深度值，单位为毫米），H_ir为深度摄像头的内参矩阵，由小孔成像模型可知，他们满足以下关系：

又设P_rgb为在RGB摄像头坐标下同一点的空间坐标，p_rgb为该点在RGB像平面上的投影坐标，H_rgb为RGB摄像头的内参矩阵。由于深度摄像头的坐标和RGB摄像头的坐标不同，他们之间可以用一个旋转平移变换联系起来，即：

其中R为旋转矩阵，T为平移向量。最后再用H_rgb对P_rgb投影，即可得到该点对应的RGB坐标：

需要注意的是，p_ir和p_rgb使用的都是齐次坐标，因此在构造p_ir时，应将原始的像素坐标（x，y）乘以深度值，而最终的RGB像素坐标必须将p_rgb除以z分量，即（x/z，y/z），且z分量的值即为该点到RGB摄像头的距离（单位为毫米）。

现在的问题是，如何求联系两个坐标系的旋转矩阵和平移向量。这就要用到摄像头的外参了。

外参矩阵实际上也是由一个旋转矩阵R_ir（R_rgb）和平移向量T_ir（T_rgb）构成的，它表示将一个全局坐标系下的点P变换到摄像头坐标系下，分别对深度摄像头和RGB摄像头进行变换，有以下关系：

在第一式中，将P用P_ir、R_ir和T_ir表示，并带入第二式，可得：

从上式可以看出，这是在将P_ir变换为P_rgb，对比之前的式子：

可得：

因此，我们只需在同一场景下，得到棋盘相对于深度摄像头和RGB摄像头的外参矩阵，即可算出联系两摄像头坐标系的变换矩阵（注意，所有旋转矩阵都是正交阵，因此可用转置运算代替求逆运算）。虽然不同场景下得到的外参矩阵都不同，计算得到的R和T也有一些变化，但根据实际实验结果来看，使用一个正面棋盘的标定图像就可达到较好的效果，如下图：