QUICK REVIEW

[論文レビュー] CANet: Class-Agnostic Segmentation Networks with Iterative Refinement and Attentive Few-Shot Learning

Chi Zhang, Guosheng Lin|arXiv (Cornell University)|Mar 6, 2019

Domain Adaptation and Few-Shot Learning参考文献 28被引用数 45

ひとこと要約

CANetは、クラスに依存しない少数ショット分割フレームワークを提案し、2つのブランチ密集比較モジュールと反復的改良モジュールを備え、さらに注意に基づくk-shot融合機構を追加して、1-shotおよび5-shot設定におけるPASCAL VOC 2012での平均IoUを最先端にし、境界ボックス監督下での頑健性を実現する。

ABSTRACT

Recent progress in semantic segmentation is driven by deep Convolutional Neural Networks and large-scale labeled image datasets. However, data labeling for pixel-wise segmentation is tedious and costly. Moreover, a trained model can only make predictions within a set of pre-defined classes. In this paper, we present CANet, a class-agnostic segmentation network that performs few-shot segmentation on new classes with only a few annotated images available. Our network consists of a two-branch dense comparison module which performs multi-level feature comparison between the support image and the query image, and an iterative optimization module which iteratively refines the predicted results. Furthermore, we introduce an attention mechanism to effectively fuse information from multiple support examples under the setting of k-shot learning. Experiments on PASCAL VOC 2012 show that our method achieves a mean Intersection-over-Union score of 55.4% for 1-shot segmentation and 57.1% for 5-shot segmentation, outperforming state-of-the-art methods by a large margin of 14.6% and 13.2%, respectively.

研究の動機と目的

未見クラスのセグメンテーションを、少数の注釈例のみでクラス非依存設定で実現する。
サポート画像とクエリ画像のピクセル単位の比較を行うために、マルチレベルCNN特徴を活用する。
クラス内の外観変化を扱うために、セグメンテーション出力を反復的に refined。
k-shot シナリオで複数のサポート例からの情報を効果的に融合するための注意機構を組み込む。
サポートデータの境界ボックスに基づく弱教師付けを検討し、ラベリング作業を削減する。

提案手法

中間レベルのCNN特徴（ResNet-50のblock2とblock3、拡張畳み込み使用）を用いた2ブランチ密集比較モジュール（DCM）で、サポートとクエリ画像間のグローバル foreground ガイド付き密集比較を実行する。
サポート画像のforeground領域上のグローバル平均プーリングによりグローバル特徴ベクトルを取得し、それをクエリ特徴マップの全ての位置と結合・比較する；アップサンプルして3x3畳み込みブロックで融合。
予測を反復的に最適化するモジュール（IOM）は、推定マスクを次の反復に供給する残差接続を通じて予測を refined する；多尺度特徴のためにASPPを組み込む。
トレーニング時の方針としては、クロスエントロピー損失を用いたエンドツーエンド訓練を採用；IOMの過学習を抑制するための確率的マスクドロップ（p_r）を用いる；マスクなしの初期フォワードパスと、オプションのマスクの段階的利用。
k-shotセグメンテーションのための注意機構は、kつのサポート例に対して重みを学習し、ソフトマックス正規化された注意スコアを介して密集比較特徴を融合する。

実験結果

リサーチクエスチョン

RQ1クラス非依存のセグメンテーションモデルは、少数のラベル付き例のみで見ないクラスへ一般化できるか。
RQ2中間レベルのCNN特徴を用いた密集比較アプローチは、従来手法と比べて少数ショット分割を改善するか。
RQ3反復的改良は、特に複雑な形状のオブジェクトに対して、few-shotタスクのセグメンテーション品質を高めるか。
RQ4学習済みの注意ベースの複数サポート例の融合は、k-shot設定で非学習型の融合方法より効果的か。
RQ5サポートセットの境界ボックス監督は、セグメンテーション性能の大幅な低下なく実現可能か。

主な発見

CANetはPASCAL VOC 2012で平均IoUが1-shotで55.4%、5-shotで57.1%を達成し、MeanIoUで従来手法をそれぞれ14.6%、13.2%上回った。
反復最適化モジュールは、PASCAL-5iの初期CANet予測を2.8%向上させる。
k-shotの注意ベース融合作は、平均IoUにおいて特徴平均化、マスク平均化、論理OR融合を大きく上回る。
境界ボックス注釈付きサポートセットは、ピクセル単位注釈と同等の性能を示し（表2の文脈で54.0%対52.0%のMeanIoU）、監視のラベル効率を示唆する。
COCOでは、1-shotの結果がIOMで4.1%のMeanIoU向上を示し、多尺度評価で更なる利得を得る；5-shotでは非学習ベースのベースラインの中で注意機構を用いた融合が最良の結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。