Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Learning of Semantic Orientation from a Hundred-Billion-Word Corpus

Peter D. Turney, Michael L. Littman|ArXiv.org|Dec 8, 2002
Natural Language Processing Techniques参考文献 7被引用数 361
ひとこと要約

この論文では、1000億語のウェブコーパスを用いて、語の意味的傾向(肯定的または否定的センチメント)を教師なしで学習するアルゴリズムを提示する。検索エンジンにクエリを投げ、結果のパターンにポイントワイズ相互情報量(PMI)を適用することで、3,596語(形容詞、副詞、名詞、動詞を含む多様な語)で80%の精度を達成した。これは、手動ラベリングを必要とせず、より広範な語彙的スコープで、先行する教師あり手法を上回った。

ABSTRACT

The evaluative character of a word is called its semantic orientation. A positive semantic orientation implies desirability (e.g., "honest", "intrepid") and a negative semantic orientation implies undesirability (e.g., "disturbing", "superfluous"). This paper introduces a simple algorithm for unsupervised learning of semantic orientation from extremely large corpora. The method involves issuing queries to a Web search engine and using pointwise mutual information to analyse the results. The algorithm is empirically evaluated using a training corpus of approximately one hundred billion words -- the subset of the Web that is indexed by the chosen search engine. Tested with 3,596 words (1,614 positive and 1,982 negative), the algorithm attains an accuracy of 80%. The 3,596 test words include adjectives, adverbs, nouns, and verbs. The accuracy is comparable with the results achieved by Hatzivassiloglou and McKeown (1997), using a complex four-stage supervised learning algorithm that is restricted to determining the semantic orientation of adjectives.

研究の動機と目的

  • ラベルなし学習データを必要とせず、スケーラブルで教師なしの方法により、語の意味的傾向(肯定的または否定的センチメント)を決定する。
  • 従来の研究が主に形容詞に限られていたのに対し、名詞、動詞、副詞を含むより広範な品詞に意味的傾向検出を拡張する。
  • 単純で効率的なアルゴリズムを用いて、1000億語のウェブコーパス上で性能を評価する。
  • 教師あり学習や複雑な特徴工学を用いずに、高い精度を達成できることを示す。

提案手法

  • この手法は、対象語と肯定的または否定的なアンカーワード(例:'excellent' や 'awful')のペアを検索エンジンで照会する。
  • 検索結果における共起頻度に基づき、対象語と各アンカーワード間のポイントワイズ相互情報量(PMI)を計算する。
  • 意味的傾向は、PMIスコアの符号と大きさによって決定される:正のPMIは肯定的傾向、負のPMIは否定的傾向を示す。
  • 複数のアンカーワードにおけるPMIスコアを統合することで、ノイズの低減と耐性の向上を図る。
  • このアプローチは、検索エンジンのクエリログにのみ依存し、手動ラベリングや言語処理の前処理を必要としない。
  • この手法は、検索エンジンがインデックス化したウェブコンテンツから得られる約1000億語のコーパスに適用された。

実験結果

リサーチクエスチョン

  • RQ1大規模なウェブコーパスから、教師なしで意味的傾向を正確に学習できるか?
  • RQ2この手法は、形容詞に限らず、名詞、動詞、副詞などの他の品詞にも一般化可能か?
  • RQ3豊富な特徴工学とラベル付きデータを必要とする教師あり手法と比較して、性能はどうか?
  • RQ4検索エンジンのクエリ結果のみを用いて、ポイントワイズ相互情報量(PMI)が感情極性を効果的に捉えることができるか?

主な発見

  • テストセットの3,596語(うち1,614語が肯定的、1,982語が否定的)で、アルゴリズムは80%の精度を達成した。
  • この手法は、形容詞、副詞、名詞、動詞を含む複数の品詞において、意味的傾向を的確に同定できた。
  • HatzivassiloglouとMcKeown(1997)が開発した、四段階にわたる複雑な教師ありアルゴリズム(形容詞に限定)と同等の性能を示した。
  • 検索エンジンの結果にPMIを適用することで、感情分析における教師あり学習の代替手段として、強固でスケーラブルな手法が得られた。
  • 本手法は、ウェブ規模のクエリデータのみを用いて、感情の教師なし大規模学習が可能であることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。