Skip to main content
QUICK REVIEW

[論文レビュー] Inferring ground truth from multi-annotator ordinal data: a probabilistic approach

Balaji Lakshminarayanan, Yee Whye Teh|arXiv (Cornell University)|Apr 30, 2013
Mobile Crowdsensing and Crowdsourcing参考文献 16被引用数 23
ひとこと要約

本稿では、変分ベイズ推論アルゴリズムを用いてアノテータの熟練度、インスタンスの難易度、スパムアノテータをモデル化することで、複数のノイズの多い順序付きアノテーションから真のラベルを同時に推定する確率的順序クラウドソーシングモデルを提案する。提案された Ordinal-discrete-mixture モデルは、アマゾン Mechanical Turk で得られた実世界のクエリ-URL関連性データセットにおいて、精度とスパムに対するロバスト性の面で最先端の手法を上回る。

ABSTRACT

A popular approach for large scale data annotation tasks is crowdsourcing, wherein each data point is labeled by multiple noisy annotators. We consider the problem of inferring ground truth from noisy ordinal labels obtained from multiple annotators of varying and unknown expertise levels. Annotation models for ordinal data have been proposed mostly as extensions of their binary/categorical counterparts and have received little attention in the crowdsourcing literature. We propose a new model for crowdsourced ordinal data that accounts for instance difficulty as well as annotator expertise, and derive a variational Bayesian inference algorithm for parameter estimation. We analyze the ordinal extensions of several state-of-the-art annotator models for binary/categorical labels and evaluate the performance of all the models on two real world datasets containing ordinal query-URL relevance scores, collected through Amazon's Mechanical Turk. Our results indicate that the proposed model performs better or as well as existing state-of-the-art methods and is more resistant to `spammy' annotators (i.e., annotators who assign labels randomly without actually looking at the instance) than popular baselines such as mean, median, and majority vote which do not account for annotator expertise.

研究の動機と目的

  • クラウドソーシングデータにおける複数のノイズの多い順序付きアノテーションから正確な真のラベルを推定する課題に対処すること。
  • 順序付きラベル付けタスクにおけるアノテータの熟練度の違いとインスタンスの難易度の違いをモデル化すること。
  • 検査を行わずランダムなラベルを割り当てるスパムアノテータを明示的に検出し、その影響を低減すること。
  • 既存の二値/カテゴリカルラベルアノテーションモデルの順序付き拡張版が実世界のデータセット上でどのように機能するかを評価すること。
  • 不確実性のもとで真のラベルとモデルパラメータを同時に推定できるスケーラブルな推論アルゴリズムを開発すること。

提案手法

  • 順序付きラベルを、適切な順序付き尤度と一様分布(スパム)成分の混合でモデル化する、新しい確率的モデル「Ordinal-discrete-mixture モデル」を提案する。
  • 各アノテータのラベルが構造的順序付き反応と一様ランダム反応の混合としてモデル化される潜在変数フレームワークを用い、スパム検出を可能にする。
  • 生成モデルにインスタンス固有の難易度とアノテータ固有の熟練度を潜在変数として組み込む。
  • 潜在変数とモデルパラメータの後erior分布を近似するための変分ベイズ推論アルゴリズムを採用し、スケーラブルな学習を実現する。
  • 累積リンク関数を用いて順序構造をモデル化し、ラベル値の自然な順序を保つ。これは二値またはカテゴリカル拡張とは異なり、順序構造を尊重する。
  • アノテータ固有の熟練度とインスタンス固有の難易度を尤度関数に統合することで、ラベル回復の精度を向上させる。

実験結果

リサーチクエスチョン

  • RQ1確率的モデルが、順序付きラベル付けタスクにおけるアノテータ熟練度の違いを考慮しながら、真のラベルを同時に推定できるか。
  • RQ2インスタンスの難易度をモデル化することで、クラウドソーシング順序データにおける真のラベル推定の精度がどの程度向上するか。
  • RQ3本稿で提案するモデルは、検査を行わずランダムなラベルを割り当てるスパムアノテータをどの程度効果的に検出し、その影響を低減できるか。
  • RQ4ラベルの順序構造を考慮するモデルと、それをカテゴリカルまたは連続値として扱うモデルとを比較した場合、性能にどのような差が生じるか。
  • RQ5実世界のデータセットにおいて、提案モデルは既存の最先端手法と比較して、MSE、相関係数、NDCG の観点でどの程度優れているか。

主な発見

  • 提案された Ordinal-discrete-mixture モデルは、Yandex データセットおよび TREC データセットの両方において、平均二乗誤差(MSE)、相関係数、正規化割合累積利得(NDCG)の観点で、既存の最先端手法を上回るか同等の性能を示した。
  • 本モデルは、平均値、中央値、多数決といったベースライン手法よりも、スパムアノテータの影響に対して著しくロバストである。スパム率が上昇するにつれて、ベースライン手法は性能が急激に低下するが、本モデルはその影響を緩和できる。
  • スパム混合成分をモデルに組み込むことが、ロバスト性を確保するために不可欠である。この成分を含まないバージョンは、高スパム条件下で著しく性能が劣化する。
  • 累積リンク関数を用いた順序尤度モデルは、連続値尤度モデルを上回る性能を示し、ラベルの順序を保持することが重要であることを示している。
  • 本モデルは、スパムアノテータを効果的に同定し、真のラベル推定への影響を低減する。
  • 1つのクエリ-URLペアに最大9件の偽のスパムレーティングが挿入されても、本モデルはすべてのベースラインおよび既存のエキスパート指向モデルを上回る性能を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。