[論文レビュー] Asymmetric Non-local Neural Networks for Semantic Segmentation
非対称ピラミッド型非局所ブロック(APNB)と非対称融合非局所ブロック(AFNB)を導入し、セマンティックセグメンテーションの非局所モジュールの計算とメモリ使用を削減。Cityscapes、ADE20K、PASCAL Contextで最先端の結果を達成。
The non-local module works as a particularly useful technique for semantic segmentation while criticized for its prohibitive computation and GPU memory occupation. In this paper, we present Asymmetric Non-local Neural Network to semantic segmentation, which has two prominent components: Asymmetric Pyramid Non-local Block (APNB) and Asymmetric Fusion Non-local Block (AFNB). APNB leverages a pyramid sampling module into the non-local block to largely reduce the computation and memory consumption without sacrificing the performance. AFNB is adapted from APNB to fuse the features of different levels under a sufficient consideration of long range dependencies and thus considerably improves the performance. Extensive experiments on semantic segmentation benchmarks demonstrate the effectiveness and efficiency of our work. In particular, we report the state-of-the-art performance of 81.3 mIoU on the Cityscapes test set. For a 256x128 input, APNB is around 6 times faster than a non-local block on GPU while 28 times smaller in GPU running memory occupation. Code is available at: https://github.com/MendelXu/ANN.git.
研究の動機と目的
- 標準の非局所ブロックの重い計算量とメモリコストを削減しつつ、セマンティックセグメンテーションの性能を維持することを動機づける。
- ピーラミッドサンプリングモジュールを埋め込み、非局所演算のアンカーポイントをサンプリングすることでAPNBを提案する。
- 長距離依存性を用いて多層特徴を統合するAFNBを提案する。
- Cityscapes、ADE20K、PASCAL Contextで効率性の向上(時間とメモリ)と最先端の精度を示す。
提案手法
- 標準の非局所ブロックの計算で支配的なO(CN^2) の複雑さを特定するために見直す。
- thetaとgamma埋め込みの後に空間ピラミッドプーリングによるサンプリングを導入してSという小さなアンカーポイント集合を得て、複雑さをO(CNS)に低減させる(O(CN^2)と比較)。
- APNBを定義するにはphiとtheta_Pの間でV_Pを計算し、正規化してV_Pを得て、gamma_Pと集約してO_Pを作成し、 Xと結合してY_Pとする。
- AFNBでは高レベルと低レベルの特徴を融合するためにphi_hとtheta_l間のクロスレベル類似度V_Fを計算し、 gamma_lと集約してO_Fを得てX_hと融合する。
- ResNet-101バックボーンと膨張(dilated)畳み込みを使ってアーキテクチャを拡張し、2つの監視信号(最終とStage4)とオンライン難ピクセルマイニングを訓練に適用する。
実験結果
リサーチクエスチョン
- RQ1ピラミッドプーリングを通じてアンカーポイントをサンプリングするだけで、セグメンテーション性能を犠牲にすることなく非局所ブロックを大幅に効率化できるか?
- RQ2非対称の非局所設計(APNBとAFNB)は、標準の非局所ブロックや単純なフュージョン手法よりも精度と効率を提供するか?
- RQ3サンプリング戦略とアンカーポイント数が標準ベンチマークでのセグメンテーション性能にどのような影響を与えるか?
主な発見
- APNBは大幅な効率向上をもたらす(256x128入力で約6倍速、GPUメモリは約28倍節約)府、標準の非局所ブロックと比較して性能の低下はほとんどない。
- AFNBは長距離依存性を利用したクロスレベル特徴の融合を改善し、ベースラインより顕著な性能向上に寄与。
- 完全な非対称非局所ネットワーク(AFNB + APNB)はCityscapes(81.3% mIoU)、ADE20K(45.24%)、PASCAL Context(52.8%)で最先端の結果を達成。
- アンカーポイント(S)とピラミッドサイズ(1,3,6,8)を用いたピラミッドサンプリングはCityscapesの最良の性能を得る;より多くのアンカーポイントは計算コストを上げるが精度を向上させる。
- 効率的なAPNB設計はGFLOPs、GPUメモリ、および推論時間を大幅に削減しつつNBやDenseASPP/PSANetベースラインに比べて高精度を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。