Skip to main content
QUICK REVIEW

[논문 리뷰] Wasserstein Distances for Stereo Disparity Estimation

Divyansh Garg, Yan Wang|arXiv (Cornell University)|2020. 07. 06.
Advanced Vision and Imaging참고 문헌 58인용 수 46
한 줄 요약

연속 시차 네트워크(CDN)를 소개하여 각 이산 시차 값에 대한 오프셋을 예측하고 시차 분포를 출력하며, Wasserstein 거리를 사용해 학습함으로써 시차/깊이 추정 및 다운스트림 3D 객체 탐지 성능을 향상시킨다.

ABSTRACT

Existing approaches to depth or disparity estimation output a distribution over a set of pre-defined discrete values. This leads to inaccurate results when the true depth or disparity does not match any of these values. The fact that this distribution is usually learned indirectly through a regression loss causes further problems in ambiguous regions around object boundaries. We address these issues using a new neural network architecture that is capable of outputting arbitrary depth values, and a new loss function that is derived from the Wasserstein distance between the true and the predicted distributions. We validate our approach on a variety of tasks, including stereo disparity and depth estimation, and the downstream 3D object detection. Our approach drastically reduces the error in ambiguous regions, especially around object boundaries that greatly affect the localization of objects in 3D, achieving the state-of-the-art in 3D object detection for autonomous driving. Our code will be available at https://github.com/Div99/W-Stereo-Disp.

연구 동기 및 목표

  • 이산 시차 빈(bin)을 넘어서 정확한 깊이/시차 추정을 촉진하고, 깊이가 애매한 경계 영역을 개선한다.
  • 이산 시차 집합에 더해진 오프셋을 통해 연속 시차 값을 출력하는 신경망을 제안한다.
  • 예측 분포를 실제 지상 진실 분포와 일치시키기 위해 Wasserstein 거리 기반 손실을 개발한다.
  • 객체 경계에서 깊이의 모호성을 포착하기 위해 다모달 지상 진실 처리를 가능하게 한다.

제안 방법

  • 각 이산 시차 값에 대한 오프셋을 예측하여 시차 분포를 출력하는 연속 시차 네트워크(CDN)를 도입한다.
  • 표준 회귀 손실을 Wasserstein 거리 기반 손실로 대체하여 예측된 시차 분포를 지상 실측 분포와 직접 일치시키도록 한다.
  • 각 이산 시차 값마다 질량을 이동시켜 연속 분포를 얻기 위한 실수 오프셋을 예측하는 오프셋 서브네트워크를 추가한다.
  • 지상 실차를 (잠재적으로 다모달한) 분포로 표현하고, 모델 학습을 위해 Wasserstein 거리(W1 또는 W2)를 계산한다.
  • 이웃으로부터 분포를 구성하여 다모달 지상 진실을 허용하고, 학습을 위해 1D Wasserstein 계산 또는 CDF 기반의 1D 형식을 사용한다.

실험 결과

연구 질문

  • RQ1신경망이 단일 정수 시차 값이 아니라 연속 시차 분포를 출력할 수 있는가?
  • RQ2Wasserstein 거리로 학습하는 것이 깊이가 모호한 객체 경계에서 특히 정확도를 향상시키는가?
  • RQ3시차 빈(bin)당 오프셋 예측을 도입하는 것이 모달 처리 및 수렴에 어떤 영향을 미치는가?
  • RQ4다모달 지상 진실이 깊이/시차 추정의 학습 효율성과 정확도에 미치는 영향은 무엇인가?

주요 결과

  • CDN은 Scene Flow와 KITTI 2015에서 기초선보다 더 낮은 시차 오차를 달성하며, 특히 전경 영역에서 우수하다.
  • 오프셋과 Wasserstein 손실을 포함한 모드 기반 예측이 경계 픽셀 추정치를 향상시키고 다모달 모호성을 줄인다.
  • 다모달 지상 진실 학습은 수렴 속도를 높이고 경계 정확도를 개선한다.
  • 시차 결과에서 CDN 변형들이 여러 지표에서 베이스라인 PSMNet 및 GANet Deep을 능가하는 반면, CDN 기반 깊이를 사용할 때 다운스트림 3D 객체 탐지 이점이 상당하다.
  • 다모달 학습은 수렴 속도를 촉진하고 경계에서 본래 다모달 시차를 더 잘 처리한다.
  • 객체 경계의 시차가 CDN으로 개선되어 정성적 결과에서 전경-배경 구분이 더 선명해진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.