本节是计算机视觉的最后一节,我们将学习深度估计。从深度的概念和度量入手,依次学习单目深度估计和双目/多目深度估计,需要知道深度估计的经典方法,掌握深度估计的评价标准,注意结合对极几何进行分析和思考。
- 深度指场景中物体表面到相机的距离,即图中𝑷 (𝑐)点的𝑍 (𝑐)坐标
- 采用深度图(Depth Map)表征,图中每点的取值代表对应像素的深度值
深度估计:设计计算机视觉算法,根据输入图像,估计出对应的深度图。
根据输入图像的数目分为单目深度估计(Monocular)、双目深度估计(Binocular)、多视角立体视觉 (Multi-View Stereo, MVS)。
与基于传感器硬件的解决方案相比,软件算法的深度估计方案成本较低
将深度作为额外的辅助信息应用在传统视觉任务中?RGB-D:RGB-D 语义分割/目标检测/视觉跟踪
? 目标:利用能够反映深度的线索/提示信息(Cues),从单幅图像中预测出对应的深度图
? 对弱纹理等挑战区域具有更强的鲁棒性
? 单目深度估计本身具有较强挑战性
近大远小:对常见物体的尺寸有大致的估计,根据其在图像中的大小,判断相对位置/距离
纹理丰富程度:近距离的区域更为清晰,纹理也较为丰富。
遮挡关系:被遮挡的背景物体距离较远,前景距离较近
平行线与消失点:在远离相机的过程中,3D空间的平行线在2D图像上的投影逐渐接近,直至相较于消失点
通过光影、明暗与纹理变化,可以轻易推断出物体的三维形状
- 单目深度线索较为繁杂多样,手工设计的方法很难全面涵盖上述所有线索
- 卷积神经网络通过端到端数据驱动的方式,可以很好地学习并集成上述线索,并且适合处理二维图像数据,因而成为单目深度估计的主流方法
- 与分割、检测等数据不同,深度真值不适合手工标注,主要依赖于深度传感器采集
- 由于深度传感器应用场景受限,场景多样化的深度训练数据不易获取,导致模型的场景泛化性能较差
? 为解决上述问题,Chen et al. 于2016年提出一种人工标注稀疏深度真值的方法,即从每一张图像中随机选两点,人工标出两点对应的前后顺序
? 通过上述标注方法构建了Depth-in-the-Wild (DIW)数据集
? DIW数据集规模大(49.6万张图片),场景多样化,真值标注稀疏且是相对的 (每张只包含两个点的相对前后顺序)
? 由于每张图像仅包含一个深度真值,因而上述网络训练过程属于弱监督学习
? 由于DIW数据集场景多样化,即使采用弱监督学习,在DIW上训练的模型相较于其他数据集训练的模型具有更强的泛化性能
? 通过矫正两个相机的朝向与位置,使极线为水平线
? 同一点在两幅图中的视差 (Disparity) 𝑑 = 𝑥1 + 𝑥2 与其深度𝑍成反比
在本节中,我们学习了深度估计的相关知识。读者需要重点掌握深度的概念和度量方式,单目深度估计和双目深度估计的主流方法,其中,深度估计的评价指标和对极几何是重点。