Skip to main content
QUICK REVIEW

[論文レビュー] Selective Sampling for Example-based Word Sense Disambiguation

Atsushi Fujii, Kentaro Inui|ArXiv.org|Oct 23, 1999
Natural Language Processing Techniques参考文献 50被引用数 114
ひとこと要約

この論文では、今後のサンプリングにおける情報量(例の有用性)を定義した訓練効用に基づき、最大限の訓練効用を持つ例を選び出す選択的サンプリング手法を提案する。この手法により、監視コストと検索コストの両方を削減できる。約1,000文の実験により、ベースライン手法と同等の性能を達成しながら、手動でラベル付けされた例の数とデータベース検索コストを顕著に削減したことが示された。

ABSTRACT

This paper proposes an efficient example sampling method for example-based word sense disambiguation systems. To construct a database of practical size, a considerable overhead for manual sense disambiguation (overhead for supervision) is required. In addition, the time complexity of searching a large-sized database poses a considerable problem (overhead for search). To counter these problems, our method selectively samples a smaller-sized effective subset from a given example set for use in word sense disambiguation. Our method is characterized by the reliance on the notion of training utility: the degree to which each example is informative for future example sampling when used for the training of the system. The system progressively collects examples by selecting those with greatest utility. The paper reports the effectiveness of our method through experiments on about one thousand sentences. Compared to experiments with other example sampling methods, our method reduced both the overhead for supervision and the overhead for search, without the degeneration of the performance of the system.

研究の動機と目的

  • 大規模な例ベースの語義規定(WSD)システムにおける高い監視コストと計算上の検索オーバーヘッドを軽減すること。
  • 大規模コーパスから、訓練に適したより少ない例のサブセットを効果的に選択する手法を開発すること。
  • 将来的な訓練効用を最大化する例を優先することで、システムの効率を向上させること。
  • 性能と効率の観点から、ランダム、不確実性、委員会ベースのサンプリング戦略と比較して、本手法の有効性を評価すること。

提案手法

  • 本手法は、訓練における情報量(例の有用性)を定義する形式的枠組み「訓練効用」を導入する。これは、ある例が訓練に使われた際に、将来のサンプリングにおいてどれほど有用であるかを示す。
  • 各反復において、訓練効用が最大の例を選択する。具体的には、未ラベル例の語義規定に役立つ例の数を基準に選択する。
  • 語義規定(例としての類似度ベースの最近傍法)と、人間の専門家が選択された例をラベル付けする訓練フェーズを交互に実行する。
  • 訓練効用は、例の事例埋め込み(case fillers)と未ラベル例の事例埋め込みとの重複度を考慮する関数を用いて計算される。
  • 反復的に、残りの例の不確実性を最も多く低減できる例を選択することで、コンパクトで高効用なデータベースを構築する。
  • 類義語辞書とケースフィラーの重複度を用いて類似度を測定し、日本語文のコーパスを用いて動詞の語義規定システムに本手法を適用する。

実験結果

リサーチクエスチョン

  • RQ1例選択を最適化することで、例ベースのWSDにおける手動ラベル例の数をどれほど削減できるか?
  • RQ2訓練効用と語義規定における実際の性能向上の相関関係はどの程度か?
  • RQ3本手法は、ランダム、不確実性、委員会ベースのサンプリングと比較して、効率性と正確性の面でどの程度優れているか?
  • RQ4本手法のような単一モデルアプローチは、委員会ベースの手法のような複数モデルアプローチと同等の性能を達成できるか?

主な発見

  • 提案手法である訓練効用に基づくサンプリングは、ランダム、不確実性、委員会ベースのサンプリングと比較して、監視コストと検索コストの両方をより効果的に削減した。
  • 本手法は、ラベル付き例の数を減らしても、ベースライン手法と同等の性能を維持しており、高い語義規定の正確性を保ったままだった。
  • 不確実性サンプリングは、冗長性(性質b)は考慮していたが、未ラベル例全体への影響(性質a)までは考慮できず、その効果が限定的であった。
  • 委員会ベースのサンプリングは、統計的モデルを想定した設計であるため、例ベースのシステムには不適切であると判断された。一方、本手法はその制約を回避できた。
  • 有用性関数は、将来の語義規定に最も有用な例を適切に優先順位付けできており、少ないラベル例で収束が早くなった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。