Skip to main content
QUICK REVIEW

[論文レビュー] Learning From Noisy Singly-labeled Data

Ashish Khetan, Zachary C. Lipton|arXiv (Cornell University)|Dec 13, 2017
Mobile Crowdsensing and Crowdsourcing参考文献 20被引用数 86
ひとこと要約

本論文は Model Bootstrapped EM (MBEM) を提案します。これは、ノイズのある単一ラベルしか付与されないクラウドデータから学習するために、ワーカ品質とラベリング関数を同時に推定する交互最適化アルゴリズムであり、理論的保証と ImageNet、CIFAR-10、MS-COCO での実証的検証を提供します。

ABSTRACT

Supervised learning depends on annotated examples, which are taken to be the \emph{ground truth}. But these labels often come from noisy crowdsourcing platforms, like Amazon Mechanical Turk. Practitioners typically collect multiple labels per example and aggregate the results to mitigate noise (the classic crowdsourcing problem). Given a fixed annotation budget and unlimited unlabeled data, redundant annotation comes at the expense of fewer labeled examples. This raises two fundamental questions: (1) How can we best learn from noisy workers? (2) How should we allocate our labeling budget to maximize the performance of a classifier? We propose a new algorithm for jointly modeling labels and worker quality from noisy crowd-sourced data. The alternating minimization proceeds in rounds, estimating worker quality from disagreement with the current model and then updating the model by optimizing a loss function that accounts for the current estimate of worker quality. Unlike previous approaches, even with only one annotation per example, our algorithm can estimate worker quality. We establish a generalization error bound for models learned with our algorithm and establish theoretically that it's better to label many examples once (vs less multiply) when worker quality is above a threshold. Experiments conducted on both ImageNet (with simulated noisy workers) and MS-COCO (using the real crowdsourced labels) confirm our algorithm's benefits.

研究の動機と目的

  • 固定されたアノテーション予算のもとで、ノイズのあるクラウドソーシングラベルからの学習を動機づける。
  • 1 件のラベルしか付かない場合でもワーカー品質を推定するアルゴリズムを開発する。
  • ワーカー品質の推定値を加重損失に組み込み、分類器を訓練する。
  • MBEM アプローチに対する理論的一般化保証を提供する。
  • ImageNet、CIFAR-10、MS-COCO に対する実験的検証を、ベースラインと比較して行う。

提案手法

  • Dawid-Skene フレームワークを用いて、ワーカー混同行列 pi を用いた真のラベリングをモデル化する。
  • Model Bootstrapped EM (MBEM) 手順を用いて、pi とラベリング関数 f* を反復的に推定する。
  • 事後分布 P[Y|Z^(r); w^(r)] を用いて f を訓練する重み付き損失 ell_pi,q を定義し、ラベルノイズを軽減する。
  • 変更後の損失(式4)を用いて経験リスクを最小化することで、事後ベースの重み付けで f を更新する。
  • モデル予測 t_i および観測ラベル Z_ij からワーカー混同行列 pi^(a) と事前分布 q を推定する(式7)。
  • 過剰リスクと混同行列推定に関する理論的保証を備えた2ラウンド(T=2)の MBEM を提供する(定理4.1)。

実験結果

リサーチクエスチョン

  • RQ1各例に対して1人のワーカーのみがラベル付けされる可能性がある場合(低冗長性)に、ノイズのあるクラウドラベルからどのように正確な分類器を学習できるか。
  • RQ2下流の分類器性能を改善するために、ワーカー品質と真のラベリング関数を共同推定できるか。
  • RQ3ノイズ付きラベルを用いた Dawid-Skene の下で MBEM の理論的保証(一般化境界)はどのようなものか。
  • RQ4ワーカー品質を考慮した場合、予算制約の下で1回ラベル付けするより多くの例をラベル付けするのが最適となるのはいつか。
  • RQ5大規模データセット(ImageNet、CIFAR-10、MS-COCO)での実験結果は、MBEMが多数決やEMなどのベースラインより優れていることを支持しますか。

主な発見

  • MBEM は低冗長性設定において、CIFAR-10、ImageNet、MS-COCO で MV、EM、加重ベースラインより一般化誤差を大幅に改善します。
  • MBEM は、モデルの不一致からワーカー品質推定をブートストラップすることで、各例1つのラベルのみでほぼオラクル性能を達成します。
  • 2 ラウンドの MBEM で、合成および実際のクラウドラベルを用いた実験において、ベースラインに対して顕著な効果を達成します。
  • 理論は VC 次元に比例する過剰リスク境界を示し、ワーカー品質が閾値を超えると(ρ が十分に 1/2 未満)1 回のラベル付けが最適となり得ることを示します。
  • CIFAR-10 および ImageNet の経験的結果は、固定予算下で MBEM が基準法と比較して一貫して MV および EM を上回り、多くの設定でオラクル性能に近づくことを示します。
  • MS-COCO では、ノイズ付き注釈で訓練しつつ現実的なマルチラベル設定を使用すると、MBEM が MV および EM より高い F1 スコアを示します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。