QUICK REVIEW

[논문 리뷰] CAKE: Compact and Accurate K-dimensional representation of Emotion

Corentin Kervadec, Valentin Vielzeuf|arXiv (Cornell University)|2018. 07. 30.

Emotion and Mood Recognition참고 문헌 12인용 수 25

한 줄 요약

이 논문은 다양한 데이터셋을 통해 깊이 신경망을 통해 학습된 3차원(compact)이고 정확한 정서 표현인 CAKE을 제안한다. 3차원 공간에서 각기 다른 자극성, 정서성, 지배성의 조합이 2차원 표현보다 정서 인식 성능에서 뛰어나며, 동시에 DNN이 암묵적으로 자극성-정서성 유사한 구조를 학습한다는 것을 입증한다.

ABSTRACT

Numerous models describing the human emotional states have been built by the psychology community. Alongside, Deep Neural Networks (DNN) are reaching excellent performances and are becoming interesting features extraction tools in many computer vision tasks.Inspired by works from the psychology community, we first study the link between the compact two-dimensional representation of the emotion known as arousal-valence, and discrete emotion classes (e.g. anger, happiness, sadness, etc.) used in the computer vision community. It enables to assess the benefits -- in terms of discrete emotion inference -- of adding an extra dimension to arousal-valence (usually named dominance). Building on these observations, we propose CAKE, a 3-dimensional representation of emotion learned in a multi-domain fashion, achieving accurate emotion recognition on several public datasets. Moreover, we visualize how emotions boundaries are organized inside DNN representations and show that DNNs are implicitly learning arousal-valence-like descriptions of emotions. Finally, we use the CAKE representation to compare the quality of the annotations of different public datasets.

연구 동기 및 목표

깊이 신경망에서 얼굴 표정 인식을 위한 압축적이고 정확한 정서 표현의 최적 차원 수를 조사하기 위해.
심리학적 정서 모델(예: 자극성-정서성, 지배성)과 딥 러닝 표현 간의 다리를 놓기 위해.
공개 데이터셋을 통해 일반화 가능한 다중 도메인, 압축된 3차원 정서 임베딩(CAKE)을 개발하기 위해.
다양한 데이터셋 간에 학습된 정서 표현의 일관성과 의미적 품질을 평가하기 위해.
학습된 CAKE 표현을 활용해 공개 데이터셋 간의 애너테이션 품질을 비교 및 평가하기 위해.

제안 방법

저자는 AffectNet, SFEW, RAF 세 개의 공개 데이터셋에서 다중 도메인 방식으로 깊이 신경망을 훈련시었다.
모델은 자극성, 정서성, 지배성 차원을 가진 심리학적 원형모델(circumplex model)을 영감으로 삼아 3차원 압축 임베딩 공간을 학습한다.
이 표현은 이중 과제 학습 목표를 사용하여 이산 정서, 자극성, 정서성을 동시에 예측하도록 최적화된다.
학습된 특징을 2차원 및 3차원 공간으로 매핑할 수 있는 시각화 프레임워크를 도입하여 정서 클러스터 조직의 정성적 분석을 가능하게 한다.
모델은 정규화된 3차원 표현(CAKE-3-Norm)을 사용하여 데이터셋 간 일관된 척도와 비교를 보장한다.
분류 정확도와 특징 일관성 측면에서 CAKE를 2차원 자극성-정서성(AV) 및 2차원 CAKE(CAKE-2) 표현과 비교한다.

실험 결과

연구 질문

RQ1딥 뉴럴 네트워크에서 얼굴 정서의 압축적이고 정확한 표현을 위해 얼마나 많은 차원이 충분한가?
RQ2딥 뉴럴 네트워크가 정서의 자극성-정서성 유사 표현을 어느 정도 암묵적으로 학습하는가?
RQ3지배성과 같은 제3의 차원을 추가함으로써 2차원 표현에 비해 정서 인식 성능이 어떻게 향상되는가?
RQ4다양한 애너테이션 품질을 가진 공개 데이터셋 간에 학습된 정서 표현은 어느 정도 일관성이 있는가?
RQ5CAKE 표현을 사용하여 데이터셋 간의 정서 애너테이션 품질을 정성적으로 평가하고 비교할 수 있는가?

주요 결과

CAKE는 일부 설정에서 더 큰 모델보다 경쟁적인 성능을 보이며, 3차원의 압축 표현을 사용하고 있음에도 불구하고 정서 인식에서 뛰어난 성능을 보였다.
AffectNet, SFEW, RAF 데이터셋 간에 CAKE의 3차원 표현이 정서 클러스터 조직에서 강력한 일관성을 보이며, 강건하고 일반화 가능한 특징 학습을 나타낸다.
정서 분류를 위한 DNN 학습이 자극성-정서성 유사한 구조를 암묵적으로 학습한다는 것이, AV와 CAKE-2 표현 간의 유사성으로 입증되었다.
중립 정서 클래스는 표현 공간의 원점에 항상 위치하여, 저강도 기준으로서의 역할을 뒷받침한다.
시각화 결과에서 SFEW 데이터셋에서 혐오와 공포 정서가 부족하게 표현되어 있음을 확인하여, 애너테이션의 일관성 문제를 드러냈다.
CAKE-3-Norm는 비정규화된 변형보다 더 균형 잡히고 해석 가능한 3차원 공간을 제공하여 데이터셋 간 비교성을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.