[論文レビュー] Emotion Detection and Analysis on Social Media
この論文は、ソーシャルメディアのテキストにおいて、六つの感情(幸福、悲しみ、恐れ、驚き、怒り、嫌悪)を分類・定量化するハイブリッド手法を提示します。NLPベースの特徴と機械学習分類器に加え、自動生成された訓練セットを使用します。
In this paper, we address the problem of detection, classification and quantification of emotions of text in any form. We consider English text collected from social media like Twitter, which can provide information having utility in a variety of ways, especially opinion mining. Social media like Twitter and Facebook is full of emotions, feelings and opinions of people all over the world. However, analyzing and classifying text on the basis of emotions is a big challenge and can be considered as an advanced form of Sentiment Analysis. This paper proposes a method to classify text into six different Emotion-Categories: Happiness, Sadness, Fear, Anger, Surprise and Disgust. In our model, we use two different approaches and combine them to effectively extract these emotions from text. The first approach is based on Natural Language Processing, and uses several textual features like emoticons, degree words and negations, Parts Of Speech and other grammatical analysis. The second approach is based on Machine Learning classification algorithms. We have also successfully devised a method to automate the creation of the training-set itself, so as to eliminate the need of manual annotation of large datasets. Moreover, we have managed to create a large bag of emotional words, along with their emotion-intensities. On testing, it is shown that our model provides significant accuracy in classifying tweets taken from Twitter.
研究の動機と目的
- テキストを六つのEmotion-Categories(感情カテゴリ)と強度スコアに分類するシステムを開発する。
- manual annotation を伴わずに自動的にラベル付き訓練データセットを生成する。
- 強度ラベルを持つ感情語の大規模な袋を作成する。
- NLP特徴抽出とML分類器を組み合わせて感情検出精度を向上させる。
- 感情予測の信頼性を測定する Surety Factor を導入する。)
提案手法
- Emotion-Words Set (EWS)、Degree-Words Set、Emoticon検出を用いた NLP でテキストの感情をスコアリングする。
- 六つの感情カテゴリについて各ヒットの emotScore と perScore を算出し、六次元の Score ベクトルに集約する。
- トークン化、品詞タグ付け、レンマタイゼーション、NER、依存構造解析に Stanford CoreNLP を活用する。
- 感情語でシードしたツイート収集と単一感情ツイート(≥70% が一カテゴリ)で訓練データを自動生成する。
- テキストから感情カテゴリを予測するために前処理済み特徴でSMOとJ48分類器を訓練する。
- First-approach scores を分類器の出力と FinalScore 調整規則で組み合わせて最終感情カテゴリを選択する。)
実験結果
リサーチクエスチョン
- RQ1六つの事前定義された Emotion-Categories を、単純なポジティブ/ネガティブ感情を超えて、ソーシャルメディアテキストで信頼性高く検出・定量化できるか?
- RQ2ハイブリッド手法(NLPベースのスコアリングとML分類) は、単独の手法と比較してどの程度有効か?
- RQ3自動生成の訓練データセットはツイートに対して高精度の感情分類器を生み出すか?
- RQ4Negation、Degree-words、emoticons の感情スコアリングと分類への寄与はどの程度か?
- RQ5システムの信頼性はどの程度であり、Surety Factor は出力の信頼度を定量化できるか?
主な発見
| Classifier | Correctly Classified Instances | Incorrectly Classified Instances | Total Instances | Accuracy (%) |
|---|---|---|---|---|
| SMO | 826 | 74 | 900 | 91.7% |
| J48 | 769 | 131 | 900 | 85.4% |
- ハイブリッド手法はテストデータで高い精度を達成(SMO 91.7%;J48 85.4%)。
- 自動生成の訓練セット 8528 件のラベル付きツイートが manual annotation なしで教師あり学習をサポート。
- Emotion-Words Set (EWS) は約 1500 語、Degree-Words および emoticons を含み、六つの感情を強度レベルでスコア可能にする。
- Negation はいくつかの感情カテゴリを反転させ、他のカテゴリのスコアを低下させ、最終的な感情決定に影響を与える。
- Surety Factor は分類器の合意、スコアのトポロジー、ヒット数に基づく信頼度を提供する。
- 結果には時系列の気分プロット、場所に基づく感情マップ、文書レベルの感情分布などの可視化デモが含まれる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。