QUICK REVIEW

[論文レビュー] Budget-aware Semi-Supervised Semantic and Instance Segmentation

Míriam Bellver, Amaia Salvador|arXiv (Cornell University)|May 14, 2019

Web Data Mining and Analysis参考文献 33被引用数 23

ひとこと要約

本稿では、注釈コストを考慮した半教師あり枠組みを提案し、セマンティックおよびインスタンスセグメンテーションにおいて、弱教師あり手法を著しく上回る性能を達成する。少量の強力な注釈と、注釈ネットワークから生成された疑似注釈を組み合わせることで、Pascal VOC で最大 42.9 AP50 を達成し、注釈に要する時間はたった 2.21 日にとどめる。これは、より少ない高品質なラベルが、多数の弱いラベルよりも効果的であることを示している。

ABSTRACT

Methods that move towards less supervised scenarios are key for image segmentation, as dense labels demand significant human intervention. Generally, the annotation burden is mitigated by labeling datasets with weaker forms of supervision, e.g. image-level labels or bounding boxes. Another option are semi-supervised settings, that commonly leverage a few strong annotations and a huge number of unlabeled/weakly-labeled data. In this paper, we revisit semi-supervised segmentation schemes and narrow down significantly the annotation budget (in terms of total labeling time of the training set) compared to previous approaches. With a very simple pipeline, we demonstrate that at low annotation budgets, semi-supervised methods outperform by a wide margin weakly-supervised ones for both semantic and instance segmentation. Our approach also outperforms previous semi-supervised works at a much reduced labeling cost. We present results for the Pascal VOC benchmark and unify weakly and semi-supervised approaches by considering the total annotation budget, thus allowing a fairer comparison between methods.

研究の動機と目的

注釈の種類に関係なく、合計注釈コストに基づいて、セマンティックおよびインスタンスセグメンテーションの統一されたベンチマークを確立すること。
注釈時間の制約下で、少量の強力な注釈を用いた半教師あり学習が、弱教師あり手法を上回るかどうかを調査すること。
低コスト環境下で、強力な注釈と弱いラベル（例：オブジェクト数付きの画像レベルラベル）を組み合わせることの有効性を評価すること。
追加データなしで、Pascal VOC における半教師ありインスタンスセグメンテーションの最初の定量的結果を提示すること。
注釈コストを削減するために、大規模な弱いラベル集合よりも強力なラベルを優先することで、優れた性能が得られることを示すこと。

提案手法

強力なラベルで学習された注釈ネットワークが、ラベルなしまたは弱いラベル付きデータに対して疑似注釈を生成する二段階ネットワークパイプライン。
実際の強力な注釈と、注釈ネットワークからの疑似注釈の和集合を用いて、セグメンテーションネットワークを学習する。
疑似注釈の品質を向上させるために、画像レベルラベルにオブジェクト数（IL+C）と画像特徴を用いて、注釈ネットワークをファインチューニングする。
弱いラベル（例：オブジェクト数付きの画像レベルラベル）を注釈パイプラインに統合することで、異種の監視を可能にし、合計注釈コストに応じて調整する。
強力なラベルと弱いラベル付きサンプルの数を関数としてモデル化することで、異なる監視方式間での公平な比較を可能にする。
人間によるラベリング作業量に基づいて合計注釈時間を計算し、Pascal VOC でさまざまな予算条件下でフレームワークを評価する。

実験結果

リサーチクエスチョン

RQ1合計注釈コストが固定されている場合、少量の強力な注釈を用いた半教師ありアプローチが、弱教師あり手法を上回るか？
RQ2オブジェクト数付きの画像レベルラベルといった弱い監視信号の統合が、低コスト環境下で疑似注釈の品質を向上させられるか？
RQ3半教師ありパイプラインに弱いラベルを追加すると、単独で強力なラベルに依存するよりもコスト効率が高くなる点があるか？
RQ4注釈時間を最小限に抑えた場合、半教師ありインスタンスセグメンテーションの性能は弱教師あり手法と比べてどうか？
RQ5固定された注釈予算下で、セグメンテーション精度を最大化するための強力なラベルと弱いラベルの最適なトレードオフは何か？

主な発見

予算が約 0.27 日のとき、RSIS（強力なラベルのみ）は 14.9 AP50 を達成したが、100 個の強力なラベルと 912 個の弱いラベル付きサンプルを用いた W-RSIS は 0.51 日で 25.2 AP50 を達成し、予算が低い状況でも弱いラベルが性能向上に寄与することが示された。
2.21 日の注釈時間で、800 個の強力なラベルを使用した RSIS は 42.9 AP50 を達成し、同じ予算で Zhou et al. [35] が 26.8 AP50 を達成したのを著しく上回った。
注釈コストを半分に抑えた（1.1 日）状況で、400 個の強力なラベルを使用した RSIS は 35.5 AP50 を達成し、2.43 日の注釈時間で Zhou et al. [35] が 26.8 AP50 を達成したのを上回った。
200 個の強力なラベルと 2279 個の弱いラベル付きサンプルを用いた W-RSIS は 1.14 日で 30.8 AP50 を達成し、200 個の強力なラベルと 10382 個のラベルなしサンプルを用いた RSIS（0.55 日）の 23.7 AP50 を上回った。
提案手法は、追加データなしで、Pascal VOC における半教師ありインスタンスセグメンテーションの最初の定量的結果を達成し、低コスト条件下で新たな SOTA を樹立した。
結果から、注釈時間の制約下では、より少ないが高品質な強力なラベルが、多数の弱いラベルよりも効果的であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。