Skip to main content
QUICK REVIEW

[논문 리뷰] Cascade Residual Learning: A Two-stage Convolutional Neural Network for Stereo Matching

Jiahao Pang, Wenxiu Sun|arXiv (Cornell University)|2017. 08. 30.
Advanced Vision and Imaging참고 문헌 21인용 수 54
한 줄 요약

두 단계 cascade CNN (DispFulNet + DispResNet)가 다중 스케일 잔차 학습으로 초기의 전체 해상도 차이를 다듬어 KITTI 2015 스테레오에서 최첨단 결과를 달성하면서도 효율성을 유지한다.

ABSTRACT

Leveraging on the recent developments in convolutional neural networks (CNNs), matching dense correspondence from a stereo pair has been cast as a learning problem, with performance exceeding traditional approaches. However, it remains challenging to generate high-quality disparities for the inherently ill-posed regions. To tackle this problem, we propose a novel cascade CNN architecture composing of two stages. The first stage advances the recently proposed DispNet by equipping it with extra up-convolution modules, leading to disparity images with more details. The second stage explicitly rectifies the disparity initialized by the first stage; it couples with the first-stage and generates residual signals across multiple scales. The summation of the outputs from the two stages gives the final disparity. As opposed to directly learning the disparity at the second stage, we show that residual learning provides more effective refinement. Moreover, it also benefits the training of the overall cascade network. Experimentation shows that our cascade residual learning scheme provides state-of-the-art performance for matching stereo correspondence. By the time of the submission of this paper, our method ranks first in the KITTI 2015 stereo benchmark, surpassing the prior works by a noteworthy margin.

연구 동기 및 목표

  • 가림, 질감이 없거나 반복되는 패턴 등 잘 정의되지 않은 스테레오 영역에서의 차이 추정 개선에 대한 동기 부여.
  • 고품질 초기 차이를 생성하고 잔차 학습을 통해 이를 정제하기 위한 2단계 cascade 아키텍처 제안.
  • 엔드-투-엔드 학습 가능성과 표준 벤치마크에서 최첨단 스테레오 방법들과의 비교 평가.

제안 방법

  • Stage 1 (DispFulNet): 디스플넷C을 업-컨볼루션으로 강화하여 경계가 상세한 전체 해상도 차이를 생성.
  • Stage 2 (DispResNet): 여러 스케일에서 잔차를 학습하여 초기 차이를 수정하는 다중 스케일 잔차 네트워크, 각 스케일에서 감독 신호를 제공.
  • Warping layer: d1을 이용한 미분 가능 워핑으로 Stage 2 입력을 위한 합성 좌측 뷰를 생성.
  • Residual learning: 최종 차이는 d2 = d1 + 각 스케일별 잔차의 합으로, 보정 및 안정성을 용이하게 해준다.
  • End-to-end training: 다중 스케일 L1 손실을 통해 단계 및 스케일 간 함께 최적화.

실험 결과

연구 질문

  • RQ1두 단계 cascade CNN이 단일 단계 네트워크에 비해 ill-posed 영역에서 차이 추정을 향상시킬 수 있는가?
  • RQ2여러 스케일에 걸친 잔차 감독이 직접 차이 학습보다 더 나은 정제 성능을 제공하는가?
  • RQ3CRL을 사용할 때 표준 스테레오 벤치마크(KITTI 2015, FlyingThings3D, Middlebury)에서 정확도와 런타임에 어떤 영향이 있는가?

주요 결과

  • CRL은 KITTI 2015에서 최첨단 차이 추정치를 달성하여 제출 시 온라인 리더보드 1위를 차지했다.
  • 첫 번째 단계인 DispFulNet은 DispNetC보다 세밀한 차이를 산출한다.
  • 두 번째 단계인 DispResNet은 다중 스케일에서 잔차를 정제해 DispNetS보다 추가 개선을 제공한다.
  • 잔차 감독을 통한 엔드-투-엔드 학습이 최적화 및 일반화에 도움이 되어 직접 차이 학습을 능가한다.
  • CRL은 GTX 1080에서 KITTI 2015 스테레오 쌍을 약 0.47초에 처리해 런타임 경쟁력을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.