QUICK REVIEW

[논문 리뷰] GA-Net: Guided Aggregation Net for End-to-end Stereo Matching

Feihu Zhang, Victor Adrian Prisacariu|arXiv (Cornell University)|2019. 04. 13.

Advanced Vision and Imaging참고 문헌 32인용 수 47

한 줄 요약

GA-Net은 differentiable semi-global (SGA) 및 local (LGA) 가이드 애그리게이션 레이어를 도입하여 스테레오 매칭에서 3D 컨볼루션을 대체하고, 더 높은 효율로 최신 정확도를 달성한다.

ABSTRACT

In the stereo matching task, matching cost aggregation is crucial in both traditional methods and deep neural network models in order to accurately estimate disparities. We propose two novel neural net layers, aimed at capturing local and the whole-image cost dependencies respectively. The first is a semi-global aggregation layer which is a differentiable approximation of the semi-global matching, the second is the local guided aggregation layer which follows a traditional cost filtering strategy to refine thin structures. These two layers can be used to replace the widely used 3D convolutional layer which is computationally costly and memory-consuming as it has cubic computational/memory complexity. In the experiments, we show that nets with a two-layer guided aggregation block easily outperform the state-of-the-art GC-Net which has nineteen 3D convolutional layers. We also train a deep guided aggregation network (GA-Net) which gets better accuracies than state-of-the-art methods on both Scene Flow dataset and KITTI benchmarks.

연구 동기 및 목표

가려짐, 텍스처가 없는 영역 및 얇은 구조를 다루기 위해 스테레오 매칭에서 비용 집계를 개선하려는 동기를 제시한다.
비용이 큰 3D 컨볼루션을 대체하는 미분 가능하고 학습 가능한 애그리게이션 레이어를 개발한다.
가이던스 서브넷을 활용하여 기하학적 구조와 맥락에 따라 애그리게이션 가중치를 적응시킨다.
두 층 GA 블록이 더 깊은 3D 컨볼루션 기반 베이스라인보다 성능이 우수함을 보여준다.
표준 벤치마크에서 실시간 가능하고 경쟁력 있거나 더 높은 정확도를 갖춘 아키텍처를 확립한다.

제안 방법

학습 가능한 가중치를 갖고 네 방향으로 미분 가능하게 비용을 집계하는 세미 글로벌 가이드 애그리게이션(SGA)을 정의한다.
배리어스 간 국부 가이드 필터링을 사용하여 얇은 구조를 다듬는 로컬 가이드 애그리게이션(LGA)을 정의한다.
GA 레이어를 위한 위치별, 시차별 애그리게이션 가중치를 생성하는 가이던스 서브넷을 사용한다.
GA 레이어를 스택드 하우스그래스 피처 추출기와 시차 회귀와 함께 통합하고, 매끄러운 L1 손실 및 시차 회귀로 학습한다.
GA-Net 변형을 GC-Net 및 PSMNet과 비교하고 Scene Flow와 KITTI 데이터셋에서 평가한다.

실험 결과

연구 질문

RQ1 differentiable, guided aggregation 레이어가 3D 컨볼루션을 대체하여 정확도를 손실 없이 스테레오 매칭에 적용할 수 있는가?
RQ2SGA 및 LGA가 가려짐, 텍스처가 없는 영역 및 얇은 구조에서 성능을 개선하는가?
RQ3GA-Net은 Scene Flow 및 KITTI 벤치마크에서 정확도와 효율성 면에서 최첨단 방법과 어떻게 비교되는가?
RQ4GA 레이어의 수를 변화시키는 것이 성능과 속도에 어떤 영향을 미치는가?

주요 결과

모델	3D Conv 수	매개변수	시간(s)	EPE 오차	오차율(%)
GC-Net	19	2.9M	4.4	1.80	15.6
PSMNet	25	3.5M	2.1	1.09	12.1
GA-Net-1	1	0.5M	0.17	1.82	16.5
GA-Net-2	2	0.7M	0.35	1.51	15.0
GA-Net-3	3	0.8M	0.42	1.36	13.9
GA-Net-7	7	1.3M	0.62	1.07	11.9
GA-Net-11	11	1.8M	0.95	0.95	10.8
GA-Net-15	15	2.3M	1.5	0.84	9.9

GA-Net은 두 개의 GA 층과 두 개의 3D 컨볼루션으로 GC-Net(19개의 3D convs 사용하는)보다 더 나은 성능을 보인다.
GA-Net-15는 Scene Flow 및 KITTI 벤치마크에서 최첨단 정확도를 달성하고, FLOP를 크게 감소시킨다( GA 층은 3D 컨볼루션의 약 1/100 비용).
SGA는 기존의 SGM보다 가려짐과 텍스처가 없는 영역을 더 효과적으로 처리하는 미분 가능하고 학습 가능한 세미 글로벌 애그리게이션을 제공한다.
LGA는 얇은 구조와 에지를 다듬어 다운샘플링으로 인한 세부 손실을 보상한다.
GA-Net-15 및 변형은 GC-Net 및 PSMNet과 비교하여 정확도, 속도 및 매개변수 수 간의 우호적인 절충을 제공한다.
실시간 GA-Net 변형은 고급 GPU에서 약 15-20 fps와 같은 경쟁력 있는 정확도를 달성하는 동시에 훨씬 적은 3D 컨볼루션을 사용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.