[논문 리뷰] EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa
EmoBERTa는 화자 토큰으로 RoBERTa를 보강하여 대화에서의 감정 인식을 위해 화자 간/화자 내 맥락을 모델링하며 RoBERTa 아키텍처를 변경하지 않고 MELD와 IEMOCAP에서 새로운 최첨단 성능을 달성한다.
We present EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa, a simple yet expressive scheme of solving the ERC (emotion recognition in conversation) task. By simply prepending speaker names to utterances and inserting separation tokens between the utterances in a dialogue, EmoBERTa can learn intra- and inter- speaker states and context to predict the emotion of a current speaker, in an end-to-end manner. Our experiments show that we reach a new state of the art on the two popular ERC datasets using a basic and straight-forward approach. We've open sourced our code and models at https://github.com/tae898/erc.
연구 동기 및 목표
- 텍스트 데이터만을 사용하여 대화에서의 감정 인식(ERC)을 동기 부여하고 해결한다.
- 아키텍처적으로 복잡한 파이프라인 없이 화자 신원을 활용하여 대화 동역학을 모델링한다.
- 표준 ERC 벤치마크에서 간단하고 엔드투엔드 RoBERTa 기반 접근법을 평가한다.
- 재현성을 위해 오픈 소스 코드와 사전 학습 모델을 제공한다.
제안 방법
- 사전 학습된 RoBERTa-large에서 시작하여 [CLS] 토큰에 선형 분류기를 추가하여 시퀀스 분류를 수행한다.
- 대화를 세 부분으로 구성하여 인코딩한다: 과거 발화, 현재 발화, 그리고 미래 발화; 각 발화는 해당 화자 이름이 앞에 오도록 한다.
- RoBERTa를 사용하여 결합된 시퀀스에 대해 어텐션을 수행하고 현재 발화의 감정을 예측한다.
- RoBERTa의 512 토큰 한도에 입력을 제한하고 토큰 한도에 도달할 때까지 과거/미래 발화를 차례로 앞/뒤에 추가한다.
- 교차 엔트로피 손실과 L2 정규화를 사용하여 학습하고, Optuna로 최적 학습률을 조정하며 혼합 정밀도 학습을 적용한다.
실험 결과
연구 질문
- RQ1화자 인식 입력 구성이 RoBERTa 프레임워크 내에서 ERC 성능을 향상시킬 수 있는가?
- RQ2과거 및/또는 미래 발화를 포함하는 것이 ERC 데이터셋의 감정 예측에 도움이 되는가?
- RQ3명시적 화자 정보가 주의 메커니즘의 동적 및 최종 예측에 어떤 영향을 미치는가?
주요 결과
| 모델 | MELD | IEMOCAP |
|---|---|---|
| EmoBERTa - No past and future utterances | 63.46 | 56.09 |
| Only past utterances | 64.55 | 68.57 |
| Only future utterances | 64.23 | 66.56 |
| Both past and future utterances | 65.61 | 67.42 |
| to, without speaker names | 65.07 | 64.02 |
| EmoBERTa (RoBERTa) - baseline without speaker names | 65.07 | 64.02 |
- EmoBERTa는 이전 방법들과 비교하여 MELD와 IEMOCAP에서 가중 F1 점수에서 최첨단을 달성한다.
- 삭감 분석은 화자 이름을 포함하는 것이 화자 식별자 없이 RoBERTa 베이스라인보다 성능을 크게 향상시킨다는 것을 보여준다.
- 과거 발화만 사용하면 IEMOCAP에서 강한 결과를 얻고, 과거+미래는 일반적으로 MELD에서 더 큰 도움을 준다.
- 과거와 미래 발화를 화자 인식 입력과 결합하면, 하나의 구성에서 과거와 미래를 함께 사용할 때 MELD의 최고 결과 65.61과 IEMOCAP의 최고 결과 67.42를 얻는다.
- 정성적 분석에 의하면 모델의 마지막 계층의 [CLS] 집계가 현재 화자에 집중하는 경향이 있어 설계를 검증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.