[論文レビュー] EmotionLines: An Emotion Corpus of Multi-Party Conversations
EmotionLines は Friends のスクリプトと private Facebook Messenger のチャットから得られた対話の各発話に感情ラベルを付与したデータセットを提供し、文脈モデリングが感情検出を改善することを示すベースラインを示しています。
Feeling emotion is a critical characteristic to distinguish people from machines. Among all the multi-modal resources for emotion detection, textual datasets are those containing the least additional information in addition to semantics, and hence are adopted widely for testing the developed systems. However, most of the textual emotional datasets consist of emotion labels of only individual words, sentences or documents, which makes it challenging to discuss the contextual flow of emotions. In this paper, we introduce EmotionLines, the first dataset with emotions labeling on all utterances in each dialogue only based on their textual content. Dialogues in EmotionLines are collected from Friends TV scripts and private Facebook messenger dialogues. Then one of seven emotions, six Ekman's basic emotions plus the neutral emotion, is labeled on each utterance by 5 Amazon MTurkers. A total of 29,245 utterances from 2,000 dialogues are labeled in EmotionLines. We also provide several strong baselines for emotion detection models on EmotionLines in this paper.
研究の動機と目的
- 単一の発話だけでなく、対話全体の文脈に基づく感情ラベリングの必要性を動機づける。
- すべての発話に対して、7つのラベル(Ekman 基本感情6つと neutral)を用いた大規模な感情対話コーパスを作成する。
- 実世界の会話の流れを捉えるため、Friends のスクリプトと EmotionPush のチャットログから対話を抽出する。
- 対話における感情検出の強力なベースラインとベンチマークを提供する。
提案手法
- Friends TV スクリプトと EmotionPush のプライベートチャットからデータを収集し、2,000の対話、29,245の発話を形成する。
- 各発話の人間によるアノテーションを Amazon Mechanical Turk を使用して行い、発話ごとに5人の作業者、多数決ラベルを gold とする。複数の感情がある発話は non-neutral カテゴリに分類。
- プライベートデータの特定情報をマスキングし、友人の言及を手動で書き換えることによる非識別化。
- 各発話には話者、内容、感情ラベルを含むデータ形式。
- 対話データに対してCNNおよびCNN-BiLSTMモデルを用いた基礎的な感情検出実験。
- WA(加重正解率)およびUWA(無加重正解率)を用いた評価。
実験結果
リサーチクエスチョン
- RQ1対話全体の文脈情報を取り入れることは、単一発話モデルと比較して発話レベルの感情認識を改善しますか?
- RQ2EmotionLines におけるラベル分布とアノテーション品質(アノテータ間一致度)はどうなっていますか?
- RQ3CNNおよびCNN-BiLSTMのベースラインは、WAおよびUWAの観点から、2つのデータ源(FriendsとEmotionPush)でどのように性能を示しますか?
- RQ4トレーニング、開発、およびテストのためのデータセットの特徴と分割はどうなっていますか?
主な発見
- データセットは、2,000対話(FriendsとEmotionPush)からの29,245発話を含みます。
- アノテータ間一致度(Fleiss’ κ)は、両方のソースで0.33を上回っており、安定したラベリング品質を示しています。
- 文脈モデリングは性能を向上させます:CNN-BiLSTM は両データセットで CNN より高い WA および UWA を示します。
- 加重正解率の改善:Friends データセットは 59.2%(CNN)から 63.9%(CNN-BiLSTM)へ、EmotionPush は 71.5%(CNN)から 77.4%(CNN-BiLSTM)へ。
- EmotionLines は、識別化されていないデータのダウンロードページでの更新予定とともに公開されています。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。