[論文レビュー] PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment
PANet は few-shot segmentation のための非パラメトリックなプロトタイプベースの metric learning アプローチを使用し、support と query のプロトタイプを整列させる prototype alignment regularization を導入して、PASCAL-5i および MS COCO で最先端の結果を達成します。
Despite the great progress made by deep CNNs in image semantic segmentation, they typically require a large number of densely-annotated images for training and are difficult to generalize to unseen object categories. Few-shot segmentation has thus been developed to learn to perform segmentation from only a few annotated examples. In this paper, we tackle the challenging few-shot segmentation problem from a metric learning perspective and present PANet, a novel prototype alignment network to better utilize the information of the support set. Our PANet learns class-specific prototype representations from a few support images within an embedding space and then performs segmentation over the query images through matching each pixel to the learned prototypes. With non-parametric metric learning, PANet offers high-quality prototypes that are representative for each semantic class and meanwhile discriminative for different classes. Moreover, PANet introduces a prototype alignment regularization between support and query. With this, PANet fully exploits knowledge from the support and provides better generalization on few-shot segmentation. Significantly, our model achieves the mIoU score of 48.1% and 55.7% on PASCAL-5i for 1-shot and 5-shot settings respectively, surpassing the state-of-the-art method by 1.8% and 8.6%.
研究の動機と目的
- サポート画像から学習したクラス固有のプロトタイプに基づく few-shot segmentation フレームワークを開発する。
- 非パラメトリックな metric learning からプロトタイプ抽出を分離することにより一般化を向上させる。
- トレーニング時にサポートとクエリのプロトタイプを整列させる prototype alignment regularization を活用する。
- サポートセットの注釈がスクリブルや境界ボックスなど、より弱い注釈にも頑健であることを示す。
提案手法
- 共有バックボーンを用いてサポート画像とクエリ画像を埋め込み、特徴マップを得る。
- 各クラスと背景についてサポート特徴上のマスク付き平均プーリングを用いてクラスプロトタイプを計算する。
- 埋め込み空間での最近傍プロトタイプを用いてクエリピクセルをセグメント化する。コサイン距離と固定スケーリング因子を使用。
- クエリに基づくマスクを予測してサポート画像を再セグメント化し、PAR ロスを計算することで prototype alignment regularization を適用する。
- L_seg と PAR ロス項を組み合わせた端から端の訓練を行う(L = L_seg + lambda * L_PAR)。
- サポートセットの注釈をスクリブルや境界ボックスなどのより弱い注釈に拡張することも可能。
実験結果
リサーチクエスチョン
- RQ1非パラメトリックでプロトタイプベースの metric learning アプローチは、重いデコーダーモジュールなしで競争力のある few-shot segmentation を達成できるか?
- RQ2トレーニング時にサポートとクエリのプロトタイプの整列を強制することで、未知クラスへの一般化が向上しますか?
- RQ3標準ベンチマーク(PASCAL-5i, MS COCO)での 1-shot および 5-shot 設定および弱い注釈の場合の PANet の性能はどうか?
主な発見
- PANet は PASCAL-5i で 1-shot mean-IoU が 48.1%、5-shot mean-IoU が 55.7% を達成し、従来法を上回った。
- PANet は PASCAL-5i における 5-shot mean-IoU で最先端を最大で 8.6% 上回る。
- Prototype Alignment Regularization (PAR) は収束を速め、サポートとクエリのプロトタイプの整列をより厳密にする(プロトタイプ間のユークリッド距離が小さくなる)。
- MS COCO で 1-shot および 5-shot 設定で最高性能を発揮し、従来手法を顕著な差で上回る。
- サポートセットのスクリブルや境界ボックスなどの弱い注釈でも PANet は有効である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。