QUICK REVIEW

[논문 리뷰] AMNet: Deep Atrous Multiscale Stereo Disparity Estimation Networks

Xianzhi Du, Mostafa El‐Khamy|arXiv (Cornell University)|2019. 04. 19.

Advanced Vision and Imaging참고 문헌 40인용 수 49

한 줄 요약

AMNet은 깊이별 분리합성 ResNet 백본과 확장된 코스트 볼륨을 갖춘 Atrous 다중스케일 네트워크를 도입하여 KITTI, SceneFlow, Middlebury에서 최첨단 스테레오 시 disparity를 달성합니다. 또한 멀티태스크 학습으로 학습된 전경-배경 인식 변형(FBA-AMNet)으로 확장됩니다.

ABSTRACT

In this paper, a new deep learning architecture for stereo disparity estimation is proposed. The proposed atrous multiscale network (AMNet) adopts an efficient feature extractor with depthwise-separable convolutions and an extended cost volume that deploys novel stereo matching costs on the deep features. A stacked atrous multiscale network is proposed to aggregate rich multiscale contextual information from the cost volume which allows for estimating the disparity with high accuracy at multiple scales. AMNet can be further modified to be a foreground-background aware network, FBA-AMNet, which is capable of discriminating between the foreground and the background objects in the scene at multiple scales. An iterative multitask learning method is proposed to train FBA-AMNet end-to-end. The proposed disparity estimation networks, AMNet and FBA-AMNet, show accurate disparity estimates and advance the state of the art on the challenging Middlebury, KITTI 2012, KITTI 2015, and Sceneflow stereo disparity estimation benchmarks.

연구 동기 및 목표

정확한 스테레오 시 disparity 추정을 위한 딥러닝 아키텍처를 개발한다.
atr ous 다중스케일 모듈을 통해 다중 스케일 맥락 정보를 포획하여 다중 스케일 disparity 추정을 개선한다.
여러 매칭 코스트를 결합한 확장 코스트 볼륨(Extended Cost Volume, ECV)을 통해 disparity 수준의 피처 연결, 피처 거리, 깊이별 상호 상관을 결합한다.
전경-배경 인식을 보조 과제로 활용하여 disparity 품질을 향상시킨다.
KITTI, Sceneflow, Middlebury 벤치마크에서 최첨단 성능을 입증한다.

제안 방법

효율적인 피처 추출기로 깊이별 분리 가능한 ResNet(D-ResNet)을 사용한다.
해상도를 잃지 않으면서 다중 스케일 맥락 정보를 집계하는 Atrous Multiscale(AM) 모듈을 도입한다.
disparity-레벨 피처 연결, 피처 거리, 깊이별 상호 상관을 결합하는 Extended Cost Volume(ECV)을 구성한다.
AM 모듈의 누적된 컨텍스트 집계를 점진적으로 정제하기 위해 SAM(Stacked AM)으로 코스트 볼륨을 처리한다.
AM 모듈의 출력에서 소프트 argmin disparity 회귀를 적용하고, FBA-AMNet에서 전경-배경 분할을 포함하는 멀티태스크 손실로 학습한다.
선택적으로 전경-배경 분할이 멀티태스크 학습을 통해 disparity 추정에 정보를 제공하도록 하는 반복적 멀티태스크 프레임워크를 학습할 수 있다.

실험 결과

연구 질문

RQ1Atrous 다중스케일 맥락 집계가 기존 인코더-디코더 아키텍처보다 스테레오 disparity 추정을 개선할 수 있는가?
RQ2여러 매칭 지표를 갖춘 확장 코스트 볼륨이 disparity 정확도를 향상시키는가?
RQ3멀티태스크 학습을 통한 전경-배경 인식이 특히 경계에서 disparity 추정을 더 향상시키는가?
RQ4AMNet 및 FBA-AMNet를 사용할 때 표준 벤치마크(KITTI 2015/2012, SceneFlow, Middlebury)의 성능 향상은 어느 정도인가?

주요 결과

AMNet 및 FBA-AMNet는 KITTI 2015, KITTI 2012, Sceneflow 벤치마크에서 최첨단 disparity 정확도를 달성한다.
AMNet-32 및 FBA-AMNet-32는 KITTI 2015의 D1-all에서 이전 방법들보다 큰 차이로 상회하며 예를 들면 FBA-AMNet-32가 모든 픽셀에서 1.84%의 D1-all에 도달한다.
AMNet-32는 Sceneflow에서 0.74의 EPE를 달성하여 이전 최고치를 32.1% 상회한다.
FBA-AMNet-32는 평가된 변종들에서 KITTI 2015 테스트 세트의 최저 disparity 오차를 달성한다(예: 모든 픽셀의 D1-all 1.84%).
멀티태스크 학습을 통한 전경-배경 인식은 추정 시나리오에서의 별도 의미 분할이 필요하지 않으면서 disparity 추정을 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.