QUICK REVIEW

[논문 리뷰] EdgeStereo: A Context Integrated Residual Pyramid Network for Stereo Matching

Xiao Song, Xu Zhao|arXiv (Cornell University)|2018. 03. 14.

Advanced Vision and Imaging참고 문헌 37인용 수 23

한 줄 요약

EdgeStereo는 맥락 통합 잔차 피라미드 네트워크를 사용하여 일괄적으로 시차 맵과 에지 맵을 예측하는 통합형 엔드 투 엔드 딥 러닝 프레임워크를 제안한다. 특징 임bedding과 에지 인식 평활성 손실을 통한 에지 힌트 통합을 통해 텍스처가 없는 영역과 물체 경계와 같은 과제가 큰 영역에서의 시차 추정 성능을 향상시켰으며, KITTI 스테레오 2012 및 2015, Scene Flow 벤치마크에서 최신 기술 수준의 성능을 달성했고, 캐스케이드 기반 모델보다 빠른 추론 속도를 보였다.

ABSTRACT

Recent convolutional neural networks, especially end-to-end disparity estimation models, achieve remarkable performance on stereo matching task. However, existed methods, even with the complicated cascade structure, may fail in the regions of non-textures, boundaries and tiny details. Focus on these problems, we propose a multi-task network EdgeStereo that is composed of a backbone disparity network and an edge sub-network. Given a binocular image pair, our model enables end-to-end prediction of both disparity map and edge map. Basically, we design a context pyramid to encode multi-scale context information in disparity branch, followed by a compact residual pyramid for cascaded refinement. To further preserve subtle details, our EdgeStereo model integrates edge cues by feature embedding and edge-aware smoothness loss regularization. Comparative results demonstrates that stereo matching and edge detection can help each other in the unified model. Furthermore, our method achieves state-of-art performance on both KITTI Stereo and Scene Flow benchmarks, which proves the effectiveness of our design.

연구 동기 및 목표

기존의 스테레오 매칭 네트워크가 텍스처가 없는 영역, 물체 경계, 미세한 세부 사항을 처리하는 데에 한계를 보이는 문제를 해결하기 위해.
에지 정보를 특징 감독 및 정규화 수 Mittel로 활용하여 시차 추정 성능을 향상시키기 위해.
계산 비용이 높은 캐스케이드 구조를 대체하는 컴act한 잔차 피라미드로 구성된 효율적인 일단계 아키텍처를 설계하기 위해.
학습 중에 쌍체의 진짜 에지 레이블이 필요 없도록 시차와 에지 검출을 함께 훈련시킬 수 있도록 하기 위해.
다중 작업 학습을 통해 스테레오 매칭과 에지 검출 간 상호 개선 효과를 입증하기 위해.

제안 방법

상호 연관성 레이어를 갖춘 시아미즈 네트워크가 왼쪽 및 오른쪽 스테레오 이미지로부터 매칭 비용 볼륨을 계산한다.
다중 척도의 맥락적 특징을 여러 수준에서 인코딩하는 맥락 피라미드 모듈이 불안정한 영역에서의 강건성을 향상시킨다.
캐스케이드 정밀 조정을 대체하는 일단계 잔차 피라미드가 단일 디코더 내에서 다중 척도에서의 시차 잔차를 학습한다.
에지 특징을 시차 브랜치에 임베딩하여 국소적이고 저수준의 감독을 제공한다.
예측된 에지에 일치하지 않는 불연속성을 방지하기 위해 에지 인식 평활성 손실을 통해 시차 예측을 정규화한다.
다단계 훈련 전략을 통해 진짜 에지 애너테이션 없이도 엔드 투 엔드 훈련이 가능하도록 한다.

실험 결과

연구 질문

RQ1스테레오 매칭과 에지 검출을 함께 학습함으로써 텍스처가 없는 영역과 물체 경계와 같은 과제가 큰 영역에서 성능 향상을 이룰 수 있는가?
RQ2특징 임베딩과 정규화를 통해 에지 힌트를 통합하면 시차 추정 정확도가 향상되는가?
RQ3일단계 잔차 피라미드 설계가 정확도와 추론 속도 측면에서 기존의 캐스케이드 또는 3D CNN 기반 정밀 조정 구조를 능가할 수 있는가?
RQ4학습 중에 진짜 에지 애너테이션이 없더라도 다중 작업 학습이 에지 검출 정확도를 향상시키는가?
RQ5제안된 방법이 고비용의 다단계 아키텍처에 의존하지 않고도 KITTI 및 Scene Flow와 같은 표준 스테레오 벤치마크에서 최신 기술 수준의 성능을 달성할 수 있는가?

주요 결과

EdgeStereo는 KITTI 2012 벤치마크(Noc 영역)에서 3픽셀 오차가 1.73%로, PSMNet 및 iResNet을 포함한 이전 방법들을 능가했다.
KITTI 2015에서 EdgeStereo는 D1-all 오차가 2.40%를 기록하여 가장 뛰어난 성능을 보였으며, 이미지당 0.27초의 빠른 추론 시간을 기록했다.
KITTI 및 Scene Flow에서의 정성적 비교 결과, 기준 모델 대비 텍스처가 없는 영역과 경계 영역에서의 시차 오차가 15–20% 감소했다.
BSDS500에서의 에지 검출 성능은 다중 작업 학습 후 ODS F-측정값이 0.795로 상승하여 원래의 HED β(0.790)를 초월했다.
에지 인식 평활성 손실과 에지 특징 임베딩은 얇은 구조와 물체 윤곽에서 더 선명한 시차 맵과 더 정확한 에지 맵을 만들어 냈다.
일단계 잔차 피라미드 설계는 CRL 및 DispNetC와 같은 캐스케이드 기반 모델보다 더 높은 정확도와 더 빠른 추론 속도를 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.