Skip to main content
QUICK REVIEW

[논문 리뷰] EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa

Taewoon Kim, Piek Vossen|arXiv (Cornell University)|2021. 08. 26.
Topic Modeling참고 문헌 28인용 수 48
한 줄 요약

EmoBERTa는 화자 토큰으로 RoBERTa를 보강하여 대화에서의 감정 인식을 위해 화자 간/화자 내 맥락을 모델링하며 RoBERTa 아키텍처를 변경하지 않고 MELD와 IEMOCAP에서 새로운 최첨단 성능을 달성한다.

ABSTRACT

We present EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa, a simple yet expressive scheme of solving the ERC (emotion recognition in conversation) task. By simply prepending speaker names to utterances and inserting separation tokens between the utterances in a dialogue, EmoBERTa can learn intra- and inter- speaker states and context to predict the emotion of a current speaker, in an end-to-end manner. Our experiments show that we reach a new state of the art on the two popular ERC datasets using a basic and straight-forward approach. We've open sourced our code and models at https://github.com/tae898/erc.

연구 동기 및 목표

  • 텍스트 데이터만을 사용하여 대화에서의 감정 인식(ERC)을 동기 부여하고 해결한다.
  • 아키텍처적으로 복잡한 파이프라인 없이 화자 신원을 활용하여 대화 동역학을 모델링한다.
  • 표준 ERC 벤치마크에서 간단하고 엔드투엔드 RoBERTa 기반 접근법을 평가한다.
  • 재현성을 위해 오픈 소스 코드와 사전 학습 모델을 제공한다.

제안 방법

  • 사전 학습된 RoBERTa-large에서 시작하여 [CLS] 토큰에 선형 분류기를 추가하여 시퀀스 분류를 수행한다.
  • 대화를 세 부분으로 구성하여 인코딩한다: 과거 발화, 현재 발화, 그리고 미래 발화; 각 발화는 해당 화자 이름이 앞에 오도록 한다.
  • RoBERTa를 사용하여 결합된 시퀀스에 대해 어텐션을 수행하고 현재 발화의 감정을 예측한다.
  • RoBERTa의 512 토큰 한도에 입력을 제한하고 토큰 한도에 도달할 때까지 과거/미래 발화를 차례로 앞/뒤에 추가한다.
  • 교차 엔트로피 손실과 L2 정규화를 사용하여 학습하고, Optuna로 최적 학습률을 조정하며 혼합 정밀도 학습을 적용한다.

실험 결과

연구 질문

  • RQ1화자 인식 입력 구성이 RoBERTa 프레임워크 내에서 ERC 성능을 향상시킬 수 있는가?
  • RQ2과거 및/또는 미래 발화를 포함하는 것이 ERC 데이터셋의 감정 예측에 도움이 되는가?
  • RQ3명시적 화자 정보가 주의 메커니즘의 동적 및 최종 예측에 어떤 영향을 미치는가?

주요 결과

모델MELDIEMOCAP
EmoBERTa - No past and future utterances63.4656.09
Only past utterances64.5568.57
Only future utterances64.2366.56
Both past and future utterances65.6167.42
to, without speaker names65.0764.02
EmoBERTa (RoBERTa) - baseline without speaker names65.0764.02
  • EmoBERTa는 이전 방법들과 비교하여 MELD와 IEMOCAP에서 가중 F1 점수에서 최첨단을 달성한다.
  • 삭감 분석은 화자 이름을 포함하는 것이 화자 식별자 없이 RoBERTa 베이스라인보다 성능을 크게 향상시킨다는 것을 보여준다.
  • 과거 발화만 사용하면 IEMOCAP에서 강한 결과를 얻고, 과거+미래는 일반적으로 MELD에서 더 큰 도움을 준다.
  • 과거와 미래 발화를 화자 인식 입력과 결합하면, 하나의 구성에서 과거와 미래를 함께 사용할 때 MELD의 최고 결과 65.61과 IEMOCAP의 최고 결과 67.42를 얻는다.
  • 정성적 분석에 의하면 모델의 마지막 계층의 [CLS] 집계가 현재 화자에 집중하는 경향이 있어 설계를 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.