Skip to main content
QUICK REVIEW

[論文レビュー] CEREALS - Cost-Effective REgion-based Active Learning for Semantic Segmentation

Radek Mackowiak, Philip Lenz|arXiv (Cornell University)|Oct 23, 2018
Domain Adaptation and Few-Shot Learning被引用数 30
ひとこと要約

CEREALSは、学習済みのコストモデルと空間的に一貫した不確実性推定を用いて、高情報量で低コストな画像領域を選択することで、人的アノテーション作業を最小限に抑える、コスト効率の良い領域ベースのアクティブラーニングフレームワークを提案する。Cityscapesデータセットにおいて、完全なトレーニングセットの17%のラベル作業量で、mIoU性能の95%を達成する。

ABSTRACT

State of the art methods for semantic image segmentation are trained in a supervised fashion using a large corpus of fully labeled training images. However, gathering such a corpus is expensive, due to human annotation effort, in contrast to gathering unlabeled data. We propose an active learning-based strategy, called CEREALS, in which a human only has to hand-label a few, automatically selected, regions within an unlabeled image corpus. This minimizes human annotation effort while maximizing the performance of a semantic image segmentation method. The automatic selection procedure is achieved by: a) using a suitable information measure combined with an estimate about human annotation effort, which is inferred from a learned cost model, and b) exploiting the spatial coherency of an image. The performance of CEREALS is demonstrated on Cityscapes, where we are able to reduce the annotation effort to 17%, while keeping 95% of the mean Intersection over Union (mIoU) of a model that was trained with the fully annotated training set of Cityscapes.

研究の動機と目的

  • セマンティックセグメンテーションのための大規模かつ完全ラベル付きトレーニングセットを作成する際の高い人的アノテーションコストを低減すること。
  • 豊富なラベルなしデータと、ピクセル単位のラベリングに高コストで時間がかかるプロセスとの間のアンバランスを是正すること。
  • 情報量の増加とアノテーションコストの両方を空間的に一貫した方法でバランスさせるアクティブラーニング戦略を開発すること。
  • 全画像やランダムなパッチではなく、情報量の多い画像領域に注目することで、ラベル作業量を最小限に抑えること。
  • セマンティックセグメンテーションにおける効率的なデータ選択のため、不確実性推定と学習済みコストモデルを組み合わせた有効性を実証すること。

提案手法

  • 各画像領域の人的アノテーション作業量(クリック数として定義)を推定するための学習済みコスト予測CNNを用いる。
  • 画像を重複のないパッチ(例:128×128 または 256×256)に分割する領域ベースのサンプリング戦略を適用し、局所的でコストに配慮した選択を可能にする。
  • エントロピーとボートエントロピーなどの不確実性ベースの獲得関数と、推定されたアノテーションコストを乗法的統合戦略で統合する。
  • 繰り返し、最も情報量が多くコスト効率の良い画像領域を選択・アノテートすることで、人的入力の最小限のトレーニングでセマンティックセグメンテーションモデルを学習する。
  • 過去のアノテーションステップからのオラクルフィードバックを用いて、コストモデルを精緻化し、将来のサンプリング意思決定を改善する。
  • 不確実性とコスト推定の統合において、ハイパーパrameter α を用いて情報量の増加とコストのトレードオフを最適化する。

実験結果

リサーチクエスチョン

  • RQ1アクティブラーニングは、高いモデル性能を維持しながら、セマンティックセグメンテーションのアノテーション作業量を削減できるか?
  • RQ2不確実性推定と学習済みコストモデルを組み合わせることで、データ選択の効率性はどのように向上するか?
  • RQ3セマンティックセグメンテーションのアクティブラーニングにおいて、情報量とアノテーションコストのバランスを最適化するための最適な領域サイズは何か?
  • RQ4コストに配慮したサンプリングは、ランダムまたはエントロピーのみのサンプリングと比較して、ラベル作業量とmIoUの観点でどの程度優れているか?
  • RQ5学習済みコストモデルは、モデルの正確性を損なわせることなく、必要な人的アノテーションの数をどの程度削減できるか?

主な発見

  • CEREALSは、完全なCityscapesデータセットで学習したモデルのmIoUの95%を、クリック数で測定したラベル作業量の17%で達成する。
  • 完全アノテーションと比較して、アノテーションコストを83%削減し、mIoUの低下はわずか5%にとどまる。
  • 128×128の領域とエントロピー不確実性と予測コストの乗法的統合を用いることで、CEREALSはc95 = 17.07%を達成し、全クリック作業量の17.07%で全モデル性能の95%を達成する。
  • 評価段階で真値コスト情報を使用した場合、c95 = 14.68%となり、学習済みコストモデルの有効性は高いが、さらなる改善の余地があることが示された。
  • エントロピーに基づくサンプリングのみでは、ラベル作業量が増加する(c95 = 33.76% でラベルの10.01%の作業量)ことが示され、コストに配慮した選択が効率性の観点で不可欠であることが明らかになった。
  • より小さな領域サイズ(128×128)は、情報量の多い領域を密度高くサンプリングでき、高不確実性領域への精密なターゲティングを可能にし、より良い性能をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。