QUICK REVIEW

[논문 리뷰] End-to-End Learning of Geometry and Context for Deep Stereo Regression

Alex Kendall, Hayk Martirosyan|arXiv (Cornell University)|2017. 03. 13.

Advanced Vision and Imaging참고 문헌 35인용 수 279

한 줄 요약

GC-Net은 3-D 컨볼루션과 소프트 아그민을 사용해 구분가능한 비용 볼륨을 형성하는 엔드-투-엔드 깊이 추정 프레임워크로, 보정 없이도 서브 픽셀 차이를 달성하고 KITTI에서 최첨단 결과를 얻는다.

ABSTRACT

We propose a novel deep learning architecture for regressing disparity from a rectified pair of stereo images. We leverage knowledge of the problem's geometry to form a cost volume using deep feature representations. We learn to incorporate contextual information using 3-D convolutions over this volume. Disparity values are regressed from the cost volume using a proposed differentiable soft argmin operation, which allows us to train our method end-to-end to sub-pixel accuracy without any additional post-processing or regularization. We evaluate our method on the Scene Flow and KITTI datasets and on KITTI we set a new state-of-the-art benchmark, while being significantly faster than competing approaches.

연구 동기 및 목표

정정된 스테레오 페어로부터 픽셀 단위의 차이를 산출하기 위한 엔드-투-엔드 매핑을 학습한다.
미분 가능한 비용 볼루를 통해 스테레오 기하학을 통합한다.
높이, 너비, 그리고 시차에 걸친 3-D 컨볼루션을 통해 의미론적 컨텍스트를 활용한다.
미분 가능한 소프트 argmin을 사용하여 서브 픽셀 정확도로 차이를 회귀한다.
Scene Flow에서의 성능을 시연하고 KITTI 데이터셋에서 벤치마크한다.

제안 방법

잔차 블록이 포함된 공유 2-D CNN을 사용하여 좌우 이미지로부터 단항 특성 표현을 학습한다.
특성 차원을 보존하면서 시차 레벨에 걸쳐 좌우 단항 특성을 연결(concatenate)하여 비용 볼륨을 구성한다.
높이, 너비, 시차 컨텍스트를 집계하여 비용 볼륨을 정규화하기 위해 3-D 인코더-디코더를 적용한다.
정규화된 비용 볼륨에서 시차 값을 회귀하기 위해 미분 가능한 소프트 아그민을 사용한다.
서브 픽셀 정확도를 달성하기 위해 L1 시차 손실로 엔드-투-엔드 학습한다(회귀 대 분류 손실의 선택적 사용과 함께).

실험 결과

연구 질문

RQ1정정된 스테레오 페어에서 기하학적 비용 볼륨을 활용하면서 엔드-투-엔드 학습이 픽셀 단위 차이를 효과적으로 회귀할 수 있는가?
RQ23-D 컨볼루션을 통해 넓은 맥락 정보를 포함시키면 스테레오 회귀 정확도와 견고성이 향상되는가?
RQ3미분 가능한 소프트 아그민이 포스트프로세싱 없이도 정확한 서브 픽셀 차이 추정치를 제공하는가?
RQ4엔드투엔드 학습이 도전적인 장면에서 시맨틱 및 컨텍스트 단서를 학습하도록 모델을 가능하게 하는가?

주요 결과

모델은 KITTI 벤치마크에서 최첨단 결과를 달성하여 기존 방법들을 능가한다.
3-D 맥락 정규화는 비용 볼륨의 3-D 맥락 정규화는 단항 기반 접근법에 비해 시차 정확도를 크게 향상시킨다.
회귀 손실이 하드 또는 소프트 분류 손실과 비교하여 더 나은 정확도와 서브 픽셀 결과를 낳는다.
엔드-투-엔드 GC-Net은 SGM과 같은 포스트 프로세싱이 필요한 패치 기반 딥 스테레오 방법보다 우수하다.
소프트 아그민은 추가적인 포스트 프로세싱 없이도 미분 가능한 서브 픽셀 시차 회귀를 가능하게 한다.
정성적 결과는 네트워크가 반사성, 질감이 없는 부분, 가느다란 구조를 다루기 위해 더 넓은 맥락 정보를 활용하는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.