[논문 리뷰] Pyramid Stereo Matching Network
PSMNet은 공간 피라미드 풀링과 스택된 hourglass 3D CNN을 도입하여 end-to-end 스테레오 매칭을 위한 비용 볼륨을 형성하고 정규화하며, KITTI 데이터셋에서 최첨단 성능을 달성한다.
Recent work has shown that depth estimation from a stereo pair of images can be formulated as a supervised learning task to be resolved with convolutional neural networks (CNNs). However, current architectures rely on patch-based Siamese networks, lacking the means to exploit context information for finding correspondence in illposed regions. To tackle this problem, we propose PSMNet, a pyramid stereo matching network consisting of two main modules: spatial pyramid pooling and 3D CNN. The spatial pyramid pooling module takes advantage of the capacity of global context information by aggregating context in different scales and locations to form a cost volume. The 3D CNN learns to regularize cost volume using stacked multiple hourglass networks in conjunction with intermediate supervision. The proposed approach was evaluated on several benchmark datasets. Our method ranked first in the KITTI 2012 and 2015 leaderboards before March 18, 2018. The codes of PSMNet are available at: https://github.com/JiaRenChang/PSMNet.
연구 동기 및 목표
- 전역 컨텍스트 정보를 활용하여 해석하기 어려운 스테레오 영역에서 강건한 시차 추정을 동기 부여한다.
- 스테레오 매칭을 위한 후처리를 배제하는 엔드-투-엔드 CNN 아키텍처를 개발한다.
- 특징 표현을 풍부하게 하기 위해 공간 피라미드 풀링을 통한 다중 스케일 컨텍스트를 도입한다.
- 중간 감독을 포함한 스택된 hourglass 3D CNN으로 비용 볼륨을 정규화한다.
제안 방법
- 좌측과 우측 영상에서 특징을 추출하기 위해 두 개의 가중치 공유 CNN 파이프라인을 사용한다.
- 다중 스케일 컨텍스트 특징을 형성하기 위해 spatial pyramid pooling (SPP) 모듈을 적용한다.
- 좌우 특징을 시차에 따라 연결해 4D 비용 볼륨을 구성한다.
- 스택된 hourglass 3D CNN 아키텍처로 비용 볼륨을 정규화하고 회귀를 통해 시차를 계산한다.
- 시차에 대해 부드러운 L1 손실로 학습하고, 시차에 대한 소프트맥스 기반 확률을 이용한 시차 회귀를 사용한다.
실험 결과
연구 질문
- RQ1SPP를 통한 다중 스케일 글로벌 컨텍스트의 통합이 해석하기 어려운 영역에서 스테레오 매칭을 개선하는가?
- RQ2엔드-투-엔드 스테레오에서 기본 3D-CNN보다 스택된 hourglass 3D CNN이 비용 볼륨을 더 잘 정규화할 수 있는가?
- RQ3확장된 합성곱과 피라미드 풀링 레벨이 KITTI 벤치마크에 미치는 영향은 어느 정도인가?
- RQ4포스트 프로세싱 없이 엔드투엔드 스테레오 매칭이 KITTI 2012/2015의 최첨단 방법들과 경쟁력이 있는가?
주요 결과
- PSMNet은 2018년 3월 18일 이전에 KITTI 2012 및 KITTI 2015 리더보드에서 최첨단 성과를 달성했다.
- SPP와 스택된 hourglass 3D CNN의 공동 사용은 특히 해석하기 어려운 영역에서 시차 정확도를 크게 향상시킨다.
- 스택된 hourglass 설정에서 다중 출력에 걸친 더 나은 손실 가중치 부여가 검증 정확도 향상을 가져왔다.
- Scene Flow에서 1)10+ 시간 학습 체제를 적용하고 이후 KITTI 미세조정을 거친다면 실제 데이터에 대한 강한 일반화를 얻는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.