Skip to main content
QUICK REVIEW

[논문 리뷰] Hierarchical Neural Architecture Search for Deep Stereo Matching

Xuelian Cheng, Yiran Zhong|arXiv (Cornell University)|2020. 10. 26.
Advanced Vision and Imaging참고 문헌 31인용 수 229
한 줄 요약

LEAStereo는 기하학 정보를 반영한 파이프라인 내에서 2D 특징 네트와 3D 매칭 네트를 공동 최적화하는 엔드-투-엔드 계층적 신경망 NAS를 stereo 매칭에 맞춤 적용하여 파라미터 수가 현저히 적고 추론 속도가 빠르면서도 최상위 벤치마크를 달성합니다.

ABSTRACT

To reduce the human efforts in neural network design, Neural Architecture Search (NAS) has been applied with remarkable success to various high-level vision tasks such as classification and semantic segmentation. The underlying idea for the NAS algorithm is straightforward, namely, to enable the network the ability to choose among a set of operations (e.g., convolution with different filter sizes), one is able to find an optimal architecture that is better adapted to the problem at hand. However, so far the success of NAS has not been enjoyed by low-level geometric vision tasks such as stereo matching. This is partly due to the fact that state-of-the-art deep stereo matching networks, designed by humans, are already sheer in size. Directly applying the NAS to such massive structures is computationally prohibitive based on the currently available mainstream computing resources. In this paper, we propose the first end-to-end hierarchical NAS framework for deep stereo matching by incorporating task-specific human knowledge into the neural architecture search framework. Specifically, following the gold standard pipeline for deep stereo matching (i.e., feature extraction -- feature volume construction and dense matching), we optimize the architectures of the entire pipeline jointly. Extensive experiments show that our searched network outperforms all state-of-the-art deep stereo matching architectures and is ranked at the top 1 accuracy on KITTI stereo 2012, 2015 and Middlebury benchmarks, as well as the top 1 on SceneFlow dataset with a substantial improvement on the size of the network and the speed of inference. The code is available at https://github.com/XuelianCheng/LEAStereo.

연구 동기 및 목표

  • 스테레오 매칭 네트워크 아키텍처의 인간 설계 노력 감소를 목표로 한다.
  • 태스크 특화 스테레오 지식을 NAS에 도입하여 특징 네트와 매칭 네트를 부피 기반 파이프라인 내에서 탐색한다.
  • 셀 및 네트워크 레벨에서 특징 네트와 매칭 네트를 함께 최적화하는 엔드-투-엔드 탐색 프레임워크를 개발한다.
  • 탐색된 아키텍처가 substantially smaller models와 faster inference로 최첨단 정확도를 달성함을 입증한다.

제안 방법

  • 두 계층의 계층적 NAS를 제안한다: 특징 네트와 매칭 네트의 셀 수준 탐색과 트렐리스 전체에 걸친 아키텍처 배치를 위한 네트워크 수준 탐색.
  • 정보 흐름을 향상시키고 셀 간 가변 공간 해상도를 허용하기 위해 잔차 셀 디자인을 사용한다.
  • 2D 특징 네트에 대해 3x3 컨볼루션, skip, 3D 매칭 네트에 대해 3x3x3 컨볼루션, skip으로 후보 연산 집합을 각각 정의한다.
  • 아키텍처 파라미터(alpha, beta)와 네트워크 가중치(w)를 갖는 이중 최적화를 사용하고, 학습 세트에서 번갈아 업데이트하는 1차 DARTS-영감을 받은 완화(relaxation)를 적용한다.
  • 최종 비용 부피를 soft-argmin을 통한 시차로 투영하고, smooth L1를 기반으로 한 손실을 사용; SceneFlow에서 엔드-투-엔드로 학습하고 KITTI와 Middlebury에서 파인튜닝한다.

실험 결과

연구 질문

  • RQ1엔드-투-엔드 NAS를 태스크 특화 priors를 활용하여 완전한 부피 stereo 파이프라인에 효과적으로 적용할 수 있는가?
  • RQ2특징 서브네트와 매칭 서브네트의 공동 탐색이 정확도와 효율성 측면에서 개별 탐색보다 우수한가?
  • RQ3셀 설계(잔차 vs 직접)와 연산 집합이 stereo 성능 및 모델 크기에 미치는 영향은 무엇인가?
  • RQ4발견된 아키텍처가 표준 stereo 벤치마크(SceneFlow, KITTI, Middlebury)에서 수작업 설계 및 NAS 기준선에 비해 일반화되는 방식은 어떠한가?

주요 결과

  • LEAStereo는 SceneFlow에서 현 상태의 최첨단 정확도를 달성하며 이전 방법의 약 1/3 파라미터로 달성한다.
  • KITTI 2012 및 2015에서 LEAStereo는 사람 설계 아키텍처 중 상위 1위를 차지한다.
  • Middlebury 2014에서 LEAStereo는 여러 평가 지표에서 선두 메트릭을 달성한다.
  • 모델은 다른 NAS 및 수작업 네트에 비해 파라미터 효율이 크게 뛰어나고 추론 속도가 더 빠르다(0.3 s).
  • Feature Net과 Matching Net의 공동 탐색은 개별 탐색보다 더 나은 EPE와 더 작은 파라미터 수를 달성한다.
  • 잔차 셀은 직접 셀보다 성능이 우수하며 파라미터 및 FLOPs의 중간 증가와 함께 정확도를 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.