QUICK REVIEW

[論文レビュー] GA-Net: Guided Aggregation Net for End-to-end Stereo Matching

Feihu Zhang, Victor Adrian Prisacariu|arXiv (Cornell University)|Apr 13, 2019

Advanced Vision and Imaging参考文献 32被引用数 47

ひとこと要約

GA-Netは、ステレオマッチングにおける3D畳み込みを置換する微分可能な半グローバル（SGA）および局所（LGA）ガイダンス付き集約層を導入し、より高い効率で最先端の精度を実現する。

ABSTRACT

In the stereo matching task, matching cost aggregation is crucial in both traditional methods and deep neural network models in order to accurately estimate disparities. We propose two novel neural net layers, aimed at capturing local and the whole-image cost dependencies respectively. The first is a semi-global aggregation layer which is a differentiable approximation of the semi-global matching, the second is the local guided aggregation layer which follows a traditional cost filtering strategy to refine thin structures. These two layers can be used to replace the widely used 3D convolutional layer which is computationally costly and memory-consuming as it has cubic computational/memory complexity. In the experiments, we show that nets with a two-layer guided aggregation block easily outperform the state-of-the-art GC-Net which has nineteen 3D convolutional layers. We also train a deep guided aggregation network (GA-Net) which gets better accuracies than state-of-the-art methods on both Scene Flow dataset and KITTI benchmarks.

研究の動機と目的

遮蔽、テクスチャ欠如領域、細構造に対応するためのコスト集約の改善を動機づける。
高コストな3D畳込みを置換する微分可能で学習可能な集約層を開発する。
幾何学と文脈に適応させるためにガイダンスサブネットを活用して集約重みを適応させる。
2層のGAブロックが、より深い3D畳込み中心のベースラインを上回ることを示す。
標準ベンチマークで競争力のある、あるいはそれ以上の精度を実現するリアルタイム対応アーキテクチャを確立する。

提案手法

学習可能な重みで4方向に微分可能にコストを集約する半グローバルガイデッドアグリゲーション（SGA）を定義する。
視差に沿って局所的なガイドフィルタリングを用いて細い構造を精製する局所ガイド付き集約（LGA）を定義する。
GA層のための位置ごと・視差ごとの集約重みを生成するガイダンスサブネットを使用する。
スタックド・アワーグラス特徴抽出器と視差回帰とともにGA層を統合し、滑らかなL1損失と視差回帰で訓練する。
GA-NetのバリアントをGC-NetおよびPSMNetと比較し、Scene FlowとKITTIデータセットで評価する。

実験結果

リサーチクエスチョン

RQ1微分可能でガイド付きの集約層は、精度を犠牲にすることなくステレオマッチングにおける3D畳込みを置換できるか。
RQ2半グローバル（SGA）および局所ガイド付き集約（LGA）は、遮蔽・テクスチャ欠如・薄い構造領域で性能を向上させるか。
RQ3GA-NetはScene FlowおよびKITTIベンチマークにおいて、精度と効率の点で最先端手法とどう比較されるか。
RQ4GA層の数を変えることが性能と速度に与える影響は何か。

主な発見

モデル	3D畳込み数	パラメータ数	時間(秒)	EPE誤差	誤差率(%)
GC-Net	19	2.9M	4.4	1.80	15.6
PSMNet	25	3.5M	2.1	1.09	12.1
GA-Net-1	1	0.5M	0.17	1.82	16.5
GA-Net-2	2	0.7M	0.35	1.51	15.0
GA-Net-3	3	0.8M	0.42	1.36	13.9
GA-Net-7	7	1.3M	0.62	1.07	11.9
GA-Net-11	11	1.8M	0.95	0.95	10.8
GA-Net-15	15	2.3M	1.5	0.84	9.9

GA-Netは2つのGA層と2つの3D畳込みで、19個の3D畳込みを用いたGC-Netを上回る。
GA-Net-15はScene FlowとKITTIベンチマークで最先端の精度を達成し、FLOPを大幅に削減（GA層は3D畳込みの約1/100のコスト）。
SGAは従来のSGMより遮蔽やテクスチャ欠如領域をより効果的に処理する、微分可能で学習可能な半グローバル集約を提供する。
LGAは薄い構造とエッジを精製し、ダウンサンプリングによる細部の損失を補完する。
GA-Net-15および派生は、GC-NetおよびPSMNetと比較して精度・速度・パラメータ数の間で有利なトレードオフを提供する。
リアルタイム版のGA-Netは、高性能GPUで15–20fps程度の競争力のある精度を達成しつつ、3D畳込みをはるかに少なくしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。