[論文レビュー] EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa
EmoBERTa は RoBERTa を話者トークンで拡張し、会話内および会話間の文脈をモデル化して感情認識を行い、RoBERTa のアーキテクチャを変更せずに MELD と IEMOCAP で新しい最先端を達成します。
We present EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa, a simple yet expressive scheme of solving the ERC (emotion recognition in conversation) task. By simply prepending speaker names to utterances and inserting separation tokens between the utterances in a dialogue, EmoBERTa can learn intra- and inter- speaker states and context to predict the emotion of a current speaker, in an end-to-end manner. Our experiments show that we reach a new state of the art on the two popular ERC datasets using a basic and straight-forward approach. We've open sourced our code and models at https://github.com/tae898/erc.
研究の動機と目的
- 会話中の感情認識(ERC)をテキストデータのみで動機づけ、対処する。
- 話者アイデンティティを活用して対話ダイナミクスを建模するが、アーキテクチャ的に複雑なパイプラインを避ける。
- 標準的な ERC ベンチマークでシンプルでエンドツーエンドの RoBERTa ベースのアプローチを評価する。
- 再現性のためにオープンソースのコードと事前学習済みモデルを提供する。
提案手法
- 事前学習済み RoBERTa-large から開始し、[CLS] トークン上の線形分類器を追加してシーケンス分類を行う。
- 過去の発話、現在の発話、未来の発話の3つのセグメントを構成して対話をエンコードし、それぞれの発話の前に対応する話者名を付ける。
- RoBERTa を用いて結合されたシーケンス上のアテンションを適用し、現在の発話の感情を予測する。
- RoBERTa の 512 トークン制限を入力に適用する。トークン制限に達するまで過去/未来の発話を前方・後方に繰り返し追加する。
- クロスエントロピー損失に L2 正則化を加えて訓練する。Optuna でピーク学習率を調整し、混合精度訓練を採用する。
実験結果
リサーチクエスチョン
- RQ1話者対応の入力構築は RoBERTa フレームワーク内で ERC の性能を改善できるか?
- RQ2過去および/または未来の発話を含めることは ERC データセットで感情予測に有益か?
- RQ3明示的な話者情報はアテンションダイナミクスと最終予測にどのように影響するか?
主な発見
| モデル | MELD | IEMOCAP |
|---|---|---|
| EmoBERTa - No past and future utterances | 63.46 | 56.09 |
| Only past utterances | 64.55 | 68.57 |
| Only future utterances | 64.23 | 66.56 |
| Both past and future utterances | 65.61 | 67.42 |
| to, without speaker names | 65.07 | 64.02 |
| EmoBERTa (RoBERTa) - baseline without speaker names | 65.07 | 64.02 |
- EmoBERTa は MELD および IEMOCAP の加重 F1 で従来手法と比べて最先端を達成している。
- アブレーションにより、話者名を含むことが話者識別子を含まない RoBERTa ベースラインと比較して性能を大幅に向上させることが示された。
- 過去の発話のみを用いた場合 IEMOCAP で強い結果を示し、過去+未来は一般に MELD でより効果的である。
- 過去と未来の発話を話者対応入力と組み合わせると、MELD で 65.61、IEMOCAP で 67.42 の最良の結果を得られる(両方を使用した1つの構成で)。
- 定性的分析は、モデルの最終層の [CLS] 集約が現在の話者に焦点を合わせる傾向があることを示し、設計の妥当性を裏付けている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。