[논문 리뷰] EmotionLines: An Emotion Corpus of Multi-Party Conversations
EmotionLines는 Friends 스크립트와 비공개 Facebook Messenger 대화에서 소스된 대화의 모든 발화에 감정 라벨을 제공하는 데이터셋으로, 컨텍스트 모델링이 감정 탐지를 향상시킨다는 베이스라인을 보여준다.
Feeling emotion is a critical characteristic to distinguish people from machines. Among all the multi-modal resources for emotion detection, textual datasets are those containing the least additional information in addition to semantics, and hence are adopted widely for testing the developed systems. However, most of the textual emotional datasets consist of emotion labels of only individual words, sentences or documents, which makes it challenging to discuss the contextual flow of emotions. In this paper, we introduce EmotionLines, the first dataset with emotions labeling on all utterances in each dialogue only based on their textual content. Dialogues in EmotionLines are collected from Friends TV scripts and private Facebook messenger dialogues. Then one of seven emotions, six Ekman's basic emotions plus the neutral emotion, is labeled on each utterance by 5 Amazon MTurkers. A total of 29,245 utterances from 2,000 dialogues are labeled in EmotionLines. We also provide several strong baselines for emotion detection models on EmotionLines in this paper.
연구 동기 및 목표
- 단일 발화를 넘어서 대화 맥락에서의 감정 라벨링 필요성을 제고한다.
- 모든 발화에 대해 일곱 개의 라벨(여섯 가지 Ekman 기본 감정 plus neutral)로 대규모 감정 대화 코퍼트를 생성한다.
- Friends TV 스크립트와 EmotionPush 채팅 로그를 소스로 하여 실제 대화 흐름을 포착한다.
- 감정 탐지를 위한 강력한 베이스라인과 대화용 벤치마크를 제공한다.
제안 방법
- Friends TV 스크립트와 EmotionPush 비공개 채팅에서 데이터를 수집하여 2,000개의 대화, 29,245개의 발화를 형성한다.
- 아마존 Mechanical Turk를 사용한 각 발화의 인간 주석: 발화당 5명의 작업자가 참여하고 다수결 라벨을 골드로 채택; 여러 감정이 있는 발화는 비중립 범주로 입력한다.
- 이름/개체 마스킹을 통한 비식별화 및 친구 관련 언급의 수동 재작성.
- 발화마다 화자, 내용, 감정 라벨이 포함된 데이터 형식.
- CNN 및 CNN-BiLSTM 모델을 사용한 대화 데이터의 베이스라인 감정 탐지 실험.
- 가중 정확도(WA)와 비가중 정확도(UWA)로 평가.
실험 결과
연구 질문
- RQ1대화 전체의 맥락 정보를 통합하면 단일 발화 모델에 비해 발화 수준의 감정 인식이 개선되는가?
- RQ2EmotionLines에서 라벨 분포 및 주석 품질(주석자 간 합의도)은 어떠한가?
- RQ3CNN 및 CNN-BiLSTM 베이스라인은 두 데이터 원천(Friends 및 EmotionPush)에서 WA와 UWA 측면에서 어떻게 수행하는가?
- RQ4훈련, 개발, 테스트를 위한 데이터셋 특성 및 분할은 무엇인가?
주요 결과
- 데이터셋은 2,000개의 대화에서 29,245개의 발화를 포함하고 있다(Friends와 EmotionPush).
- 주석자 간 합의도(Fleiss’ kappa)가 두 소스 모두 0.33 이상으로 견고한 주석 품질을 나타낸다.
- 맥락 모델링은 성능을 향상시킨다: CNN-BiLSTM이 두 데이터셋에서 CNN보다 더 높은 WA와 UWA를 보인다.
- 가중 정확도 개선: Friends 데이터셋은 CNN에서 59.2%에서 CNN-BiLSTM으로 63.9%로 증가; EmotionPush는 CNN에서 71.5%에서 CNN-BiLSTM으로 77.4%로 증가.
- EmotionLines는 비식별 데이터의 다운로드 페이지 업데이트 계획과 함께 공개된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.