QUICK REVIEW

[논문 리뷰] In Defense of Classical Image Processing: Fast Depth Completion on the CPU

Jason S. Ku, Ali Harakeh|arXiv (Cornell University)|2018. 01. 31.

Advanced Vision and Imaging참고 문헌 13인용 수 25

한 줄 요약

이 논문은 희박한 LIDAR 깊이 맵에 고전적인 영상 처리 기법—예를 들어 팽창, 구멍 메꾸기, 가우시안 블러링—을 사용하여 빠르고 학습이 없는 CPU 기반 깊이 보완 알고리즘을 제안한다. 이는 훈련 데이터나 GPU 의존 없이도 90 Hz로 실행되며, KITTI 벤치마크에서 최신 기술 수준의 성능을 달성하여 RMSE 1350.93 mm로 1위를 기록했다.

ABSTRACT

With the rise of data driven deep neural networks as a realization of universal function approximators, most research on computer vision problems has moved away from hand crafted classical image processing algorithms. This paper shows that with a well designed algorithm, we are capable of outperforming neural network based methods on the task of depth completion. The proposed algorithm is simple and fast, runs on the CPU, and relies only on basic image processing operations to perform depth completion of sparse LIDAR depth data. We evaluate our algorithm on the challenging KITTI depth completion benchmark, and at the time of submission, our method ranks first on the KITTI test server among all published methods. Furthermore, our algorithm is data independent, requiring no training data to perform the task at hand. The code written in Python will be made publicly available at https://github.com/kujason/ip_basic.

연구 동기 및 목표

잘 설계된 고전적인 영상 처리 알고리즘이 깊이 보완에서 딥 러닝 기반 방법을 능가할 수 있음을 보여주기 위해.
GPU 가속 기술이나 훈련 데이터 없이도 CPU에서 효율적으로 작동하는 빠르고 실시간 깊이 보완 알고리즘을 개발하기 위해.
학습 데이터가 필요 없는 데이터 독립적인 방법을 만들기 위해, 과적합을 방지하고 강건성을 향상시키기 위해.
복잡한 신경망보다 간단하고 효율적인 깊이 보완을 위한 강력하고 해석 가능한 기준을 제공하기 위해.
기존 영상 처리 기법이 현대 컴퓨터 비전 작업, 예를 들어 깊이 보완과 같은 분야에서 효과가 있음을 검증하기 위해.

제안 방법

희박한 깊이 맵을 역전하고 팽창하여 깊이 영역을 확장하고 작은 구멍을 메우기 시작한다.
작은 구멍은 형태학적 연산을 통해 메우며, 이후 깊이 값을 이미지 프레임 상단으로 확장하여 잡음 요소를 줄인다.
큰 구멍은 형태학적 팽창과 가우시안 블러링의 조합을 사용하여 깊이 값을 전파하면서 구조를 유지한다.
소음 제거와 깊이 평면의 부드러움을 위해 중앙값 필터와 가우시안 필터를 두 단계로 적용하여 객체 경계를 왜곡하지 않는다.
최종 출력은 처리된 깊이 맵을 다시 역전시켜 원래의 깊이 값을 복원함으로써 얻는다.
이 방법은 신경망, 훈련 데이터, 이미지 가이던스 없이도 표준 영상 처리 연산에만 의존한다.

Figure 1: A flowchart of the proposed algorithm. Clockwise starting at top left: Input LIDAR depth map (enhanced for visibility), inversion and dilation, small hole closure, small hole fill, extension to top of frame, large hole fill and blur, inversion for output, image of scene (not used, only for

실험 결과

연구 질문

RQ1고전적인 영상 처리 기법이 깊이 보완에서 딥 러닝 기반 방법을 능가할 수 있는가?
RQ2CPU 기반, 학습이 없는 알고리즘만으로 KITTI 깊이 보완 벤치마크에서 최신 기술 수준의 성능을 달성할 수 있는가?
RQ3형태학적 커널의 모양과 크기 선택이 고전적 깊이 보완 파이프라인의 성능에 어떤 영향을 미치는가?
RQ4희박한 입력 환경에서 깊이 오차를 최소화하기 위해 블러링 기법 조합(예: 중앙값, 가우시안, 양면)의 최적 조합은 무엇인가?
RQ5학습 불가능하고 데이터 독립적인 알고리즘이 CPU에서 실시간 성능(90 Hz)을 유지하면서도 높은 정확도를 확보할 수 있는가?

주요 결과

제안된 알고리즘은 KITTI 깊이 보완 벤치마크에서 RMSE 1350.93 mm, MAE 305.35 mm를 기록하여 제출 당시 발표된 모든 방법 중 1위를 차지했다.
알고리즘은 GPU 가속이나 모델 추론 하드웨어 없이도 CPU에서 90 Hz로 실행되어 실시간 성능을 입증했다.
중앙값과 가우시안 블러링의 조합을 사용함으로써 블러링 없이 대비해 RMSE가 150 mm 이상 향상되었으며, 런타임 오버헤드는 극히 적은 0.011 초였다.
가우시안 블러링 변형이 가장 낮은 RMSE(1350.93 mm)를 기록했지만, 양면 블러링 버전은 객체 구조를 더 잘 유지하여 실용적 응용에 권장된다.
학습 및 트레이닝이 불가능한 비학습 기반임에도 불구하고, 커스텀 희박성에 강인한 컨volutional 신경망(SIC-Net)을 상당한 격차로 앞서며 성능을 뛰어넘었다.
색상 이미지나 동기화 센서에 의존하지 않기 때문에 이미지 품질 및 캘리브레이션 오차에 강건하며, 임베디드 환경에 적합하다.

Figure 2: A toy example summarizing the problem formulation described in equation 1 . Empty values are coloured in red, and filled by applying the function $f$ to $D_{sparse}$ .

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.