QUICK REVIEW

[論文レビュー] Few-Shot Segmentation Propagation with Guided Networks

Kate Rakelly, Evan Shelhamer|arXiv (Cornell University)|May 25, 2018

Domain Adaptation and Few-Shot Learning参考文献 26被引用数 103

ひとこと要約

この論文は、スパースなサポート注釈からタスク表現を生成し、追加の最適化なしに新しい入力をセグメントする few-shot segmentation のガイド付きネットワークを導入し、画像、時間、シーン間で迅速に伝搬させることで、複数の画像・時間・シーンへ適用可能にします。

ABSTRACT

Learning-based methods for visual segmentation have made progress on particular types of segmentation tasks, but are limited by the necessary supervision, the narrow definitions of fixed tasks, and the lack of control during inference for correcting errors. To remedy the rigidity and annotation burden of standard approaches, we address the problem of few-shot segmentation: given few image and few pixel supervision, segment any images accordingly. We propose guided networks, which extract a latent task representation from any amount of supervision, and optimize our architecture end-to-end for fast, accurate few-shot segmentation. Our method can switch tasks without further optimization and quickly update when given more guidance. We report the first results for segmentation from one pixel per concept and show real-time interactive video segmentation. Our unified approach propagates pixel annotations across space for interactive segmentation, across time for video segmentation, and across scenes for semantic segmentation. Our guided segmentor is state-of-the-art in accuracy for the amount of annotation and time. See http://github.com/shelhamer/revolver for code, models, and more details.

研究の動機と目的

非常に少ないピクセルレベルの注釈でセグメンテーションを実現することにより、注釈の負担を軽減する。
ガイダンスによってタスクを切り替えられる、タスク駆動型のエンドツーエンド学習可能なフレームワークを開発する。
統一的なアプローチを用いて、空間（画像）、時間（動画）、シーン（セマンティッククラス）全体に注釈を伝搬させる。
新しいガイダンスが利用可能になったときに、リアルタイムの対話的更新を可能にする。

提案手法

スパースな注釈から潜在タスク表現 z を抽出するガイド g を備えたガイド付きネットワークを導入する。
サポートを z に要約するガイダンス (g) ブランチと、z に基づいてクエリをセグメントする推論 (f) ブランチという2分岐アーキテクチャを用いる。
画像と注釈ストリームの後方融合を採用して z を形成し、特徴量ではなくマスクを再計算することで高速な更新を可能にする。
位置ごとのタスク表現をグローバルプーリングして、空間と時間を横断して伝搬できるタスクベクトルを形成する。
密なセグメンテーションデータから合成されたエピソード形式の few-shot セグメンテーションタスクで訓練し、ガイドとセグメンタの両方をエンドツーエンドで最適化する。
条件付け戦略（特徴量融合、パラメータ回帰、プロトタイプ）を評価し、特徴量融合を最良のガイディング機構として選択する。

実験結果

リサーチクエスチョン

RQ1単一の前方伝搬のガイド付きネットワークが、複数のセグメンテーションタスクにわたり、極めてスパースからデンスな注釈までを扱えるか？
RQ2サポート情報（注釈）を画像とどのように融合して、ガイド付き推論のための効果的なタスク表現を形成するべきか？
RQ3few-shot設定における構造化出力セグメンテーションの最適なガイダンス戦略は何か（特徴量融合 vs. パラメータ回帰 vs. プロトタイプ）？
RQ4提案手法は、対話型画像セグメンテーション、セマンティックセグメンテーション、ビデオオブジェクトセグメンテーション、リアルタイムな対話的ビデオセグメンテーションを含めて、どのように性能を発揮するか？
RQ5ガイダンス量（S-shot、Pピクセル）が変化してもモデルは精度を維持できるか、追加の注釈で迅速に更新できるか？

主な発見

ガイド付きネットワークは、対話型セグメンテーション、ビデオオブジェクトセグメンテーション、そして few-shot semantic segmentation におけるスパース注釈で最先端の精度を達成する。
画像と注釈ストリームの後方融合とグローバルプーリングは精度を向上させ、新しい注釈が提供されたときの迅速な更新を可能にする。
対話型およびビデオタスクでは、ガイダンスによりリアルタイムまたはほぼリアルタイムの更新が可能で、ファインチューニング手法よりも大幅に高速である。
Pascal VOC のセマンティックセグメンテーションでは、クラスあたりわずか2ピクセルの注釈で強い性能を達成し、スパース領域で密注釈のベースラインに匹敵する。
DAVIS 2017 のビデオオブジェクトセグメンテーションでは、スパース領域で最先端であり、密な領域でも競争力のある速度で高い精度を示す（例えば、密な領域で 33.3% の精度、同じタイムエンベロープ内の peers に対して 80% 相対改善。）。
このアプローチはクロスモード転送をサポートし、単一モードで訓練された単一モデルで画像、動画、セマンティックタスクを跨いで動作する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。