Skip to main content
QUICK REVIEW

[論文レビュー] A new ANEW: Evaluation of a word list for sentiment analysis in microblogs

Finn Årup Nielsen|arXiv (Cornell University)|Mar 15, 2011
Sentiment Analysis and Opinion Mining参考文献 10被引用数 739
ひとこと要約

本稿では、マイクロブログのセンチメント分析に特化した新しいセンチメント語彙、AFINN-2477を紹介する。この語彙は、-5から+5のスケールで感情の強度(valence)を手動でスコア付けしており、インターネットスラングや攻撃的表現を含む。アマゾン・メカニカル・ターキューロンを用いて1,000件の手動ラベル付きツイッター投稿で評価した結果、人間の判断との相関係数はPearson r = 0.564と、ANEW(r = 0.525)を上回ったが、SentiStrength(r = 0.610)は依然として優れている。これは、ドメイン特化語彙と高度な自然言語処理技術の有効性を示している。

ABSTRACT

Sentiment analysis of microblogs such as Twitter has recently gained a fair amount of attention. One of the simplest sentiment analysis approaches compares the words of a posting against a labeled word list, where each word has been scored for valence, -- a 'sentiment lexicon' or 'affective word lists'. There exist several affective word lists, e.g., ANEW (Affective Norms for English Words) developed before the advent of microblogging and sentiment analysis. I wanted to examine how well ANEW and other word lists performs for the detection of sentiment strength in microblog posts in comparison with a new word list specifically constructed for microblogs. I used manually labeled postings from Twitter scored for sentiment. Using a simple word matching I show that the new word list may perform better than ANEW, though not as good as the more elaborate approach found in SentiStrength.

研究の動機と目的

  • ツイッターのようなマイクロブログプラットフォームに特化したセンチメント語彙の開発。ここでは、非公式な言語、スラング、攻撃的表現が一般的である。
  • この新しい語彙が、ANEW、General Inquirer、OpinionFinderといった既存の語彙リストと比較して、センチメント強度検出の性能をどのように上回るかを評価すること。
  • インターネットスラングや強い否定的表現の含め方が、短い非公式なテキストにおけるセンチメント分析の正確性をどの程度向上させるかを評価すること。
  • 新しい語彙と ANEW の性能差が、スコアリングの質の違いか、語彙カバレッジの違いに起因するかを特定すること。

提案手法

  • 2,477語の固有語と15語のフレーズを含む新しいセンチメント語彙(AFINN-2477)を構築。-5(非常に否定的)から+5(非常に肯定的)の感情強度スケールで手動スコア付け。
  • COP15ツイッター投稿データ、公的語彙リスト(例:DeRose, Siegle)、Urban Dictionary、Wiktionary、Microsoft Web n-gram類似度サービスを用いて、語彙を段階的に拡張。
  • 曖昧な語(例:'patient', 'mean')や高覚醒度の中立語(例:'surprise')を除外してノイズを低減。
  • 1,000件のツイッター投稿をアマゾン・メカニカル・ターキューロンで手動ラベル付けし、自動スコアと人間のラベルとの間のピアソン相関とスピアマン相関を計算して性能を評価。
  • 同一のスコアリング手法とリサンプリング技術を用いて、新しい語彙を ANEW、General Inquirer、OpinionFinder、SentiStrength と比較。
  • ANEW と新しい語彙の共通語彙(299語)を分析し、スコアリングの質と語彙カバレッジの影響を分離するために、ANEWのスコアで再スコアリングした。

実験結果

リサーチクエスチョン

  • RQ1マイクロブログに特化したセンチメント語彙は、ツイッターにおけるセンチメント強度検出で ANEW を上回るか?
  • RQ2インターネットスラングや攻撃的表現の含め方が、非公式なテキストにおけるセンチメント分析性能をどの程度向上させるか?
  • RQ3新しい語彙の性能向上は、ANEW よりも優れた語のスコアリングによるものか、それとも語彙カバレッジの広がりによるものか?
  • RQ4語彙が段階的に拡大するにつれて、新しい語彙の性能はどのように変化するか?
  • RQ5SentiStrength は否定表現や絵文字処理といった高度なNLP技術を用いているが、その性能は新しい語彙と比べてどうか?

主な発見

  • 新しい AFINN-2477 語彙は、1,000件のツイッター投稿において人間の判断とのピアソン相関係数が 0.564 を達成し、ANEW の 0.525 を上回った。
  • SentiStrength は最高の相関係数 0.610 を記録し、これは高度なNLP技術が単純な語の照合を上回ることを示している。
  • General Inquirer 語彙は性能が低かった(ピアソン r = 0.374)。これは、極性のみのスコアリングであり、感情強度を反映していないためと推測される。
  • OpinionFinder 語彙は General Inquirer よりも優れていた(r = 0.458)が、ANEW や新しい語彙よりは劣っており、サイズが大きくても同様の結果であった。
  • 新しい語彙の性能は、図4に示すように段階的な拡大に伴い着実に向上した。これは、さらなる拡大によっても性能向上が期待できる可能性を示している。
  • ANEW と新しい語彙の共通語彙(299語)の分析から、ANEW のスコアリングが優れていた。これは、新しい語彙の性能向上がスコアリングの質の向上ではなく、語彙カバレッジの広がりによるものであることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。