QUICK REVIEW

[論文レビュー] Interlaced Sparse Self-Attention for Semantic Segmentation

Lang Huang, Yuhui Yuan|arXiv (Cornell University)|Jul 29, 2019

Advanced Neural Network Applications参考文献 60被引用数 53

ひとこと要約

この論文は、長距離の文脈を捉える Interlaced Sparse Self-Attention (IANet) を提案し、Cityscapes、ADE20K、LIP、COCO でベースラインおよび非局所法と比較して一貫した改善を示します。

ABSTRACT

In this paper, we present a so-called interlaced sparse self-attention approach to improve the efficiency of the \emph{self-attention} mechanism for semantic segmentation. The main idea is that we factorize the dense affinity matrix as the product of two sparse affinity matrices. There are two successive attention modules each estimating a sparse affinity matrix. The first attention module is used to estimate the affinities within a subset of positions that have long spatial interval distances and the second attention module is used to estimate the affinities within a subset of positions that have short spatial interval distances. These two attention modules are designed so that each position is able to receive the information from all the other positions. In contrast to the original self-attention module, our approach decreases the computation and memory complexity substantially especially when processing high-resolution feature maps. We empirically verify the effectiveness of our approach on six challenging semantic segmentation benchmarks.

研究の動機と目的

長距離の文脈依存性を効果的にモデル化することにより、セマンティックセグメンテーションを動機づけ、改善する。
長距離と短距離の文脈集約を交互に行う interlaced 注意機構を提案する。
セマンティックセグメンテーション、物体検出、インスタンスセグメンテーションのタスク全体にわたる汎化を示す。
広範なアブレーションとベンチマークを通じて、ベースライン、非局所法、および関連の注意機構と比較する。

提案手法

長距離と短距離の注意ブロックをカスケードする Interlaced Sparse Self-Attention (IANet) を提案する。
バックボーンネットワークの自己注意ブロックを、グローバルな文脈を捉えるために interlaced 注意で置換または拡張する。
複数のデータセットで IA をベースライン、NL、RCCA、CGNL と比較するアブレーションを実施する。
セグメンテーションには Cityscapes、ADE20K、LIP を評価し、検出/インスタンスセグメンテーションには Mask-RCNN を用いた COCO を評価する。
ImageNet 事前学習済みのバックボーンに膨張畳み込みと補助損失を用い、ポリ学習率ポリシーと同期バッチ正規化を採用する。

実験結果

リサーチクエスチョン

RQ1インタレースド注意は、さまざまなデータセットにわたって、ベースラインおよび非局所/自己注意法よりセグメンテーション性能を改善しますか？
RQ2他の文脈モデリング手法（NL、RCCA、CGNL）と比べて、精度と効率の観点から interlaced 注意はどのように比較されますか？
RQ3分割サイズ（L）と長距離 vs 短距離注意の順序が性能に与える影響はどのようなものですか？
RQ4提案された IA 技術は COCO の Mask-RCNN のような物体検出およびインスタンスセグメンテーションのタスクへ一般化できますか？
RQ5複数の IA ブロックを追加することは、他のタスク（例：CUB-200-2011 分類）でどのように性能に影響しますか？

主な発見

Interlaced 注意は、セマンティックセグメンテーションのベンチマークにおいて、ベースラインおよび非局所法に対して有意な改善をもたらします。
IANet は、同様のバックボーンを用いる既存手法と比較して、Cityscapes、ADE20K、LIP で最先端または競争力のある結果を達成します。
単一の interlaced 注意ブロックを追加するだけで、Mask-RCNN ベースラインに対して COCO の物体検出とインスタンスセグメンテーションで一貫した利得を生みます。
CGNL および NL と比較して、IA は CUB-200-2011 で Top-1 / Top-5 精度がより高く、Cityscapes のアブレーションでは RCCA を上回ります。
分割サイズと注意段階の順序は性能に影響し、より大きな分割と Long-Range の後に Short-Range の順序が最も良い結果をもたらします。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。