[論文レビュー] Emotion Detection on TV Show Transcripts with Sequence-based Convolutional Neural Networks
本論文は、7つの精細な感情を含む新しいFriendsのトランスクリプト感情コーパスを導入し、対話ダイナミクスを捉えるための注意機構を備えたシーケンスベースのCNNモデルを提案し、ベースラインCNNより改善を達成した。
While there have been significant advances in detecting emotions from speech and image recognition, emotion detection on text is still under-explored and remained as an active research field. This paper introduces a corpus for text-based emotion detection on multiparty dialogue as well as deep neural models that outperform the existing approaches for document classification. We first present a new corpus that provides annotation of seven emotions on consecutive utterances in dialogues extracted from the show, Friends. We then suggest four types of sequence-based convolutional neural network models with attention that leverage the sequence information encapsulated in dialogue. Our best model shows the accuracies of 37.9% and 54% for fine- and coarse-grained emotions, respectively. Given the difficulty of this task, this is promising.
研究の動機と目的
- テレビ番組の文字起こしから、多人数対話のための大規模で精緻なテキスト感情コーパスを作成する。
- 注意機構を用いた発話系列を活用するシーケンスベースのCNNモデルを、感情分類のために開発する。
- 包括的なコーパス分析を提供し、SCNNモデルをベースラインと比較する。
- 注意機構を強化したSCNNモデルが、このタスクで標準のCNNを上回ることを示す。
提案手法
- 連続発話にわたって、Friendsのトランスクリプトを7つの感情(sad, mad, scared, powerful, peaceful, joyful, neutral)で注釈付けする。
- 現在の発話特徴と前の発話を連結によって結合するシーケンスベースのCNNモデル(SCNN)を提案し、2つのバリアント(SCNN cとSCNN v)を置く。
- 過去の発話を重み付けする注意機構を組み込み、現在の感情を予測する際にSCNN c^aとSCNN v^aを適用する。
- Word2Vec、200次元の語嵌入を訓練し、シーケンス融合のために1-D畳み込みを用いたCNNベースの特徴抽出器を使用する。
- エピソードの訓練/開発/テスト分割で、SCNNのバリアントをCNNおよびRNN-CNNのベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1テキストだけで、シーケンスを意識したニューラルモデルがテレビ番組のトランスクリプトにおける多人数対話の感情を正確に検出できるか?
- RQ2このタスクで、注意機構付きのシーケンスベースのCNNは標準のCNNやRNNベースのモデルを上回るか?
- RQ3連続発話を使用することが対話データの感情検出性能にどのような影響を与えるか?
主な発見
| モデル | Acc 7 | Acc 3 | F1 7 | F1 3 |
|---|---|---|---|---|
| CNN | 37.01 | 49.78 | 22.91 | 36.83 |
| RNN-CNN | 29.00 | 42.10 | 11.00 | 24.05 |
| SCNN c | 37.35 | 53.20 | 25.06 | 38.00 |
| SCNN v | 36.45 | 51.11 | 21.00 | 36.50 |
| SCNN c^a | 37.90 | 54.00 | 26.90 | 39.25 |
| SCNN v^a | 37.67 | 51.90 | 26.70 | 38.21 |
- 最良モデル(SCNN_c^a)は、7クラスのEmotion分類で37.90%の精度と54.00%のmacro F1、3クラス(粗分類)評価で39.25%のmacro F1を達成する。
- SCNNのバリアントは、評価指標において基本のCNNおよびRNN-CNNベースラインを上回る。
- 注意機構は無 attention のSCNNモデルより向上をもたらし、SCNN_c^a が最も高いスコアを報告している。
- 3〜5件の前発話を使用すると最良の性能を示し、長い場面では長い履歴には限界が生じる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。