QUICK REVIEW

[論文レビュー] Rule-based Emotion Detection on Social Media: Putting Tweets on Plutchik's Wheel

Erik Tromp, Mykola Pechenizkiy|arXiv (Cornell University)|Dec 15, 2014

Sentiment Analysis and Opinion Mining参考文献 12被引用数 28

ひとこと要約

本稿では、Plutchikの感情の輪を用いたルールベース手法であるRBEM-Emoを紹介する。これは、ルールベース発生モデルを拡張し、8つの基本的感情にメッセージを分類する。Affectデータセットでは88.4%の正確度を達成し、再帰的自己符号化器を含む最先端技術を上回り、新規の多言語Twitterベンチマークでは3言語で平均52.4%の正確度を達成した。

ABSTRACT

We study sentiment analysis beyond the typical granularity of polarity and instead use Plutchik's wheel of emotions model. We introduce RBEM-Emo as an extension to the Rule-Based Emission Model algorithm to deduce such emotions from human-written messages. We evaluate our approach on two different datasets and compare its performance with the current state-of-the-art techniques for emotion detection, including a recursive auto-encoder. The results of the experimental study suggest that RBEM-Emo is a promising approach advancing the current state-of-the-art in emotion detection.

研究の動機と目的

感情分析を極性の範囲を越えて、ソーシャルメディアのテキストにおける微細な感情を検出すること。
Plutchikの感情モデルに整合する透明性があり、解釈可能な分類が可能なルールベースのシステムを開発すること。
感情データセットにおけるクラス不均衡を是正し、少数派の感情クラスにおける性能を向上させること。
再現可能な研究と手法の公平な比較を可能にするために、公開可能な多言語ベンチマークを構築すること。
ルールベース発生モデル（RBEM）を極性検出から、言語的パターンと感情の階層を用いた多クラス感情分類に拡張すること。

提案手法

Plutchikの感情の輪に従い、喜び、信頼、恐怖、驚き、悲しみ、嫌悪、怒り、期待の8つの基本的感情を検出するようにルールベース発生モデル（RBEM）を適応する。
感情表現を検出するために、手作業で作成された言語的パターン（感情を示す語、価値のシフト要因（例：否定）、強度修飾語を含む）を用いる。
感情が4つの二項軸（例：喜び–悲しみ、信頼–恐怖）に沿ってグループ化される階層的分類戦略を適用し、構造的な推論を可能にする。
感情を示すフレーズの存在と強度に基づいてメッセージにスコアを付けるパターンマッチングエンジンを採用し、分類のための信頼度しきい値を設定する。
統計的分類器との比較のため、TF-IDFと単語数特徴量を用いるが、RBEM-Emoはあくまでルールベースのパターンマッチングに依存する。
初期段階で英語、オランダ語、ドイツ語以外のメッセージをフィルタリングし、最終データセットにおける言語の正確性を保証するために手動での検証を実施する。

実験結果

リサーチクエスチョン

RQ1Plutchikの感情の輪を意味的フレームワークとして用いることで、ルールベースのシステムがソーシャルメディアのテキストにおける感情を効果的に検出できるか。
RQ2再帰的自己符号化器やSVMといった最先端のニューラル・統計的モデルと比較して、RBEM-Emoの感情検出タスクにおける性能はどの程度か。
RQ3感情データセットにおけるクラス不均衡が一般分類器の性能に与える影響はどの程度で、ルールベースの手法がこの問題を緩和できるか。
RQ4多言語ソーシャルメディアの文脈において、RBEM-Emoのアプローチはオランダ語、英語、ドイツ語の複数の言語に一般化可能か。
RQ5公開可能な多言語ベンチマークが、感情検出研究における再現性と標準化を向上させられるか。

主な発見

中立のメッセージを含めたAffectデータセットでは、RBEM-Emoは88.4%の正確度を達成し、大多数クラスベースライン（84.4%）およびテストされたすべての他の分類器を大きく上回った。
同じデータセットにおいて、中立のメッセージを除外した場合、RBEM-Emoは67.1%の正確度を達成し、SVM（65.0%）、回帰（63.4%）、再帰的自己符号化器（60.4%）の各モデルを上回った。
新規の多言語Twitterベンチマークでは、オランダ語で56.7%、英語で47.2%、ドイツ語で53.2%の正確度を達成し、合計平均正確度は52.4%に達した。これは、全言語で他のすべてのモデルを上回った。
再帰的自己符号化器は性能が低く、英語では31.0%、平均で42.7%の正確度にとどまり、小規模で多言語のデータセットでは有効性が限定的であることが示された。
SVMと回帰モデルは、中立クラスを除外した場合に性能が向上したため、クラス不均衡が一般分類器に大きな影響を及ぼしていることが示唆された。
TF-IDF特徴量の使用は、単語数の特徴量に比べてわずかに性能を向上させたが、特徴表現の種別に関わらず、RBEM-Emoのルールベースのアプローチが優れていることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。