Skip to main content
QUICK REVIEW

[论文解读] In Defense of Classical Image Processing: Fast Depth Completion on the CPU

Jason S. Ku, Ali Harakeh|arXiv (Cornell University)|Jan 31, 2018
Advanced Vision and Imaging参考文献 13被引用 25
一句话总结

本文提出了一种基于经典图像处理技术(如膨胀、孔洞填充和高斯模糊)的快速、非学习型、CPU原生深度补全算法,适用于稀疏LIDAR深度图。该方法在KITTI基准测试中达到最先进性能,RMSE为1350.93 mm,排名第一,优于基于深度学习的方法,且无需训练数据或GPU依赖,运行速度达90 Hz。

ABSTRACT

With the rise of data driven deep neural networks as a realization of universal function approximators, most research on computer vision problems has moved away from hand crafted classical image processing algorithms. This paper shows that with a well designed algorithm, we are capable of outperforming neural network based methods on the task of depth completion. The proposed algorithm is simple and fast, runs on the CPU, and relies only on basic image processing operations to perform depth completion of sparse LIDAR depth data. We evaluate our algorithm on the challenging KITTI depth completion benchmark, and at the time of submission, our method ranks first on the KITTI test server among all published methods. Furthermore, our algorithm is data independent, requiring no training data to perform the task at hand. The code written in Python will be made publicly available at https://github.com/kujason/ip_basic.

研究动机与目标

  • 证明精心设计的经典图像处理算法可在深度补全任务中超越基于深度学习的方法。
  • 开发一种快速、实时的深度补全算法,可在CPU上高效运行,无需GPU加速。
  • 创建一种与数据无关的方法,无需训练数据,避免过拟合并提升鲁棒性。
  • 提供一种强而可解释的基线方法,相较于复杂的神经网络,更加简洁高效。
  • 验证传统图像处理在现代计算机视觉任务(如深度补全)中的有效性。

提出的方法

  • 算法首先对稀疏深度图进行反转和膨胀操作,以扩展深度区域并填充小孔洞。
  • 使用形态学操作填充小孔洞,随后将深度值延伸至图像顶部以减少伪影。
  • 通过形态学膨胀与高斯模糊相结合的方式填充大孔洞,实现深度值的传播,同时保留结构特征。
  • 采用两阶段模糊处理,依次应用中值滤波和高斯滤波,以减少噪声并平滑深度平面,同时不扭曲物体边缘。
  • 最终输出通过反转处理后的深度图恢复原始深度值。
  • 该方法仅依赖标准图像处理操作,不使用神经网络、不依赖训练数据,也无需图像引导。
Figure 1: A flowchart of the proposed algorithm. Clockwise starting at top left: Input LIDAR depth map (enhanced for visibility), inversion and dilation, small hole closure, small hole fill, extension to top of frame, large hole fill and blur, inversion for output, image of scene (not used, only for
Figure 1: A flowchart of the proposed algorithm. Clockwise starting at top left: Input LIDAR depth map (enhanced for visibility), inversion and dilation, small hole closure, small hole fill, extension to top of frame, large hole fill and blur, inversion for output, image of scene (not used, only for

实验结果

研究问题

  • RQ1经典图像处理技术是否能在深度补全任务中超越基于深度学习的方法?
  • RQ2是否可能仅使用基于CPU的非学习算法,在KITTI深度补全基准测试中达到最先进性能?
  • RQ3形态学核的形状与大小选择如何影响经典深度补全流水线的性能?
  • RQ4在稀疏输入场景下,何种模糊技术组合(如中值、高斯、双边)可最小化深度误差?
  • RQ5是否可实现一种与数据无关、不可训练的算法,在CPU上以90 Hz实现实时性能,同时保持高精度?

主要发现

  • 所提算法在KITTI深度补全基准测试中实现RMSE为1350.93 mm,MAE为305.35 mm,提交时在所有已发表方法中排名第一。
  • 该算法在CPU上运行速度达90 Hz,证明其无需GPU加速或模型推理硬件即可实现实时性能。
  • 结合中值滤波与高斯滤波使RMSE降低超过150 mm,且运行时延仅增加0.011秒,开销极低。
  • 高斯模糊变体实现最低RMSE(1350.93 mm),而双边模糊版本在保留物体结构方面表现更优,推荐用于实际应用。
  • 尽管为非学习、不可训练方法,该算法仍显著优于自定义的稀疏不变卷积神经网络(SIC-Net)。
  • 由于不依赖彩色图像或同步传感器,该方法对图像质量和标定误差具有鲁棒性,适用于嵌入式部署。
Figure 2: A toy example summarizing the problem formulation described in equation 1 . Empty values are coloured in red, and filled by applying the function $f$ to $D_{sparse}$ .
Figure 2: A toy example summarizing the problem formulation described in equation 1 . Empty values are coloured in red, and filled by applying the function $f$ to $D_{sparse}$ .

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。