QUICK REVIEW

[論文レビュー] Word Affect Intensities

Saif M. Mohammad|arXiv (Cornell University)|Apr 28, 2017

Sentiment Analysis and Opinion Mining参考文献 20被引用数 24

ひとこと要約

本論文は、ベスト・ワーストスケーリング（BWS）を用いて、怒り、恐怖、喜び、悲しみの4つの基本的感情について、手動でキュレートされた実数値の語—感情強度スコアを持つNRC感情強度語彙（AIL）を紹介する。この手法は高い信頼性（分割信頼性 >0.91）を達成し、微細な差別能を有する。これにより、センチメント分析、自然言語生成、公衆衛生モニタリングなどの応用分野における感情強度の正確な測定が可能になる。

ABSTRACT

Words often convey affect -- emotions, feelings, and attitudes. Further, different words can convey affect to various degrees (intensities). However, existing manually created lexicons for basic emotions (such as anger and fear) indicate only coarse categories of affect association (for example, associated with anger or not associated with anger). Automatic lexicons of affect provide fine degrees of association, but they tend not to be accurate as human-created lexicons. Here, for the first time, we present a manually created affect intensity lexicon with real-valued scores of intensity for four basic emotions: anger, fear, joy, and sadness. (We will subsequently add entries for more emotions such as disgust, anticipation, trust, and surprise.) We refer to this dataset as the NRC Affect Intensity Lexicon, or AIL for short. AIL has entries for close to 6,000 English words. We used a technique called best-worst scaling (BWS) to create the lexicon. BWS improves annotation consistency and obtains reliable fine-grained scores (split-half reliability > 0.91). We also compare the entries in AIL with the entries in the NRC VAD Lexicon, which has valence, arousal, and dominance (VAD) scores for 20K English words. We find that anger, fear, and sadness words, on average, have very similar VAD scores. However, sadness words tend to have slightly lower dominance scores than fear and anger words. The Affect Intensity Lexicon has applications in automatic emotion analysis in a number of domains such as commerce, education, intelligence, and public health. AIL is also useful in the building of natural language generation systems.

研究の動機と目的

既存の感情語彙には、通常は「怒りに関連する」や「怒りに関連しない」といったカテゴリカルな関連性しか提供しないが、本研究は、そのような細分化された手動キュレーション済みの感情強度スコアの不足を解消することを目的とする。
従来のスケール評価法の限界を克服し、語に内在する感情的関連の強度を測定する際のアノテーションの一貫性と信頼性を向上させることを目的とする。
語が直接的に感情を示唆するのではなく、比喩的・含意的に感情を喚起する場合を含め、語が伝える感情の強度の程度を捉える、信頼性の高い実数値語彙を構築することを目的とする。
ソーシャルメディアの監視、公衆衛生の追跡、自然言語生成システムなどの応用分野における、より正確で洗練された感情強度分析を可能にすることを目的とする。
語に含まれる音節や音声パターンが特定の感情と系統的に関連しているかどうかを同定できるようにし、これにより、感情を含む語の音声的・語形的パターンに関する今後の研究を支援することを目的とする。

提案手法

4語の語の組み合わせからなるタプルから、特定の感情の強度が最も高い語と最も低い語を選択するという、比較的アノテーション手法としてのベスト・ワーストスケーリング（BWS）を採用した。
BWSを用いて、各語—感情ペアに0から1の実数値の強度スコアを導出。1は最高の強度、0は最低の強度を示す。
各4語タプルのアノテーションが5つのペアワイズ比較を示すという事実を活用し、統計的手法を用いて安定的かつ信頼性の高いスコアに変換した。
半数のアノテーションを用いてスコアを生成し、全セットと比較することで、アノテーション品質を確保した。
独立したアノテーターによる再アノテーションを実施し、元のスコアと高い相関（スピアマンのrho = 0.92、ピアソンのr = 0.91）を達成した。
NRC VAD語彙（価値、覚醒、優位性）のスコアと比較することで、語彙間の一貫性と感情的プロファイルの違いを分析した。

実験結果

リサーチクエスチョン

RQ1ベスト・ワーストスケーリングは、従来のスケール評価法に比べて一貫性と識別能に優れた、信頼性の高い微細な強度スコアを語—感情関連に対して得られるか？
RQ2AILとNRC VAD語彙を比較した場合、怒り、恐怖、喜び、悲しみに関連する語の、価値と優位性プロファイルにはどのような違いがあるか？
RQ3反意的意味的含意を持つ語（例：「喜び」と「嘆き」）が自然言語でどれほど共起するか、そしてそれが自動感情検出にどのように影響するか？
RQ4感情強度語彙（AIL）は、WASSA-2017 や SemEval-2018 といった共有NLPチャレンジで実施される感情強度検出タスクの性能向上に寄与できるか？
RQ5特定の音節や音声パターンが、特定の感情と系統的に関連しているかどうかを、AILを用いて同定できるか？

主な発見

NRC感情強度語彙（AIL）は、4つの基本的感情について約6,000語の英単語に対して、0（最小強度）から1（最大強度）までの実数値の強度スコアを有する。
ベスト・ワーストスケーリングは、分割信頼性がスピアマン順位相関で0.92、ピアソン相関で0.91を達成し、アノテーションプロセスの高い一貫性と安定性を示した。
独立したアノテーターによる再アノテーションでは、元のスコアと高い相関が得られ、この手法の信頼性と識別力が確認された。
AILにおける怒り、恐怖、悲しみに関連する語は、NRC VAD語彙において平均的な価値と覚醒スコアが非常に似ており、悲しみに関連する語は有意に低い優位性スコアを示した。
AILは、WASSA-2017 および SemEval-2018 の共有タスクで上位成績を収めたシステムで実際に使用され、実世界のNLP応用における有用性が裏付けられた。
語彙は、特定の感情と系統的に関連する音節や音声パターンを同定できるようにし、感情を含む語の音声的・語形的パターンに関する今後の研究を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。