QUICK REVIEW

[논문 리뷰] EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa

Taewoon Kim, Piek Vossen|arXiv (Cornell University)|2021. 08. 26.

Topic Modeling참고 문헌 28인용 수 48

한 줄 요약

EmoBERTa는 화자 토큰으로 RoBERTa를 보강하여 대화에서의 감정 인식을 위해 화자 간/화자 내 맥락을 모델링하며 RoBERTa 아키텍처를 변경하지 않고 MELD와 IEMOCAP에서 새로운 최첨단 성능을 달성한다.

ABSTRACT

We present EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa, a simple yet expressive scheme of solving the ERC (emotion recognition in conversation) task. By simply prepending speaker names to utterances and inserting separation tokens between the utterances in a dialogue, EmoBERTa can learn intra- and inter- speaker states and context to predict the emotion of a current speaker, in an end-to-end manner. Our experiments show that we reach a new state of the art on the two popular ERC datasets using a basic and straight-forward approach. We've open sourced our code and models at https://github.com/tae898/erc.

연구 동기 및 목표

텍스트 데이터만을 사용하여 대화에서의 감정 인식(ERC)을 동기 부여하고 해결한다.
아키텍처적으로 복잡한 파이프라인 없이 화자 신원을 활용하여 대화 동역학을 모델링한다.
표준 ERC 벤치마크에서 간단하고 엔드투엔드 RoBERTa 기반 접근법을 평가한다.
재현성을 위해 오픈 소스 코드와 사전 학습 모델을 제공한다.

제안 방법

사전 학습된 RoBERTa-large에서 시작하여 [CLS] 토큰에 선형 분류기를 추가하여 시퀀스 분류를 수행한다.
대화를 세 부분으로 구성하여 인코딩한다: 과거 발화, 현재 발화, 그리고 미래 발화; 각 발화는 해당 화자 이름이 앞에 오도록 한다.
RoBERTa를 사용하여 결합된 시퀀스에 대해 어텐션을 수행하고 현재 발화의 감정을 예측한다.
RoBERTa의 512 토큰 한도에 입력을 제한하고 토큰 한도에 도달할 때까지 과거/미래 발화를 차례로 앞/뒤에 추가한다.
교차 엔트로피 손실과 L2 정규화를 사용하여 학습하고, Optuna로 최적 학습률을 조정하며 혼합 정밀도 학습을 적용한다.

실험 결과

연구 질문

RQ1화자 인식 입력 구성이 RoBERTa 프레임워크 내에서 ERC 성능을 향상시킬 수 있는가?
RQ2과거 및/또는 미래 발화를 포함하는 것이 ERC 데이터셋의 감정 예측에 도움이 되는가?
RQ3명시적 화자 정보가 주의 메커니즘의 동적 및 최종 예측에 어떤 영향을 미치는가?

주요 결과

모델	MELD	IEMOCAP
EmoBERTa - No past and future utterances	63.46	56.09
Only past utterances	64.55	68.57
Only future utterances	64.23	66.56
Both past and future utterances	65.61	67.42
to, without speaker names	65.07	64.02
EmoBERTa (RoBERTa) - baseline without speaker names	65.07	64.02

EmoBERTa는 이전 방법들과 비교하여 MELD와 IEMOCAP에서 가중 F1 점수에서 최첨단을 달성한다.
삭감 분석은 화자 이름을 포함하는 것이 화자 식별자 없이 RoBERTa 베이스라인보다 성능을 크게 향상시킨다는 것을 보여준다.
과거 발화만 사용하면 IEMOCAP에서 강한 결과를 얻고, 과거+미래는 일반적으로 MELD에서 더 큰 도움을 준다.
과거와 미래 발화를 화자 인식 입력과 결합하면, 하나의 구성에서 과거와 미래를 함께 사용할 때 MELD의 최고 결과 65.61과 IEMOCAP의 최고 결과 67.42를 얻는다.
정성적 분석에 의하면 모델의 마지막 계층의 [CLS] 집계가 현재 화자에 집중하는 경향이 있어 설계를 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.