QUICK REVIEW

[논문 리뷰] Morphset:Augmenting categorical emotion datasets with dimensional affect labels using face morphing

Vassilios Vonikakis, Neo Yuan Rong Dexter|arXiv (Cornell University)|2021. 03. 04.

Emotion and Mood Recognition참고 문헌 28인용 수 8

한 줄 요약

MorphSet는 고유한 얼굴 모핑 기반 프레임워크를 제안하여 고유한 정서 데이터셋에 연속적인 차원적 영향 레이블(조절성과 각성도)을 보완함으로써, 균형 잡히고 현실적이며 매우 일관된 레이블을 확보하면서도 20배 이상의 데이터 증강을 달성한다. 이 방법은 정점 표현과 중립 얼굴 간의 제어된 모핑을 통해 각 주제당 수백 가지의 표정 변형을 합성함으로써, 기존의 노이즈가 많은 월드 데이터셋보다 우수한 성능을 보이는 연속적 표정 분석 모델을 훈련시키는 데 기여한다.

ABSTRACT

Emotion recognition and understanding is a vital component in human-machine interaction. Dimensional models of affect such as those using valence and arousal have advantages over traditional categorical ones due to the complexity of emotional states in humans. However, dimensional emotion annotations are difficult and expensive to collect, therefore they are not as prevalent in the affective computing community. To address these issues, we propose a method to generate synthetic images from existing categorical emotion datasets using face morphing as well as dimensional labels in the circumplex space with full control over the resulting sample distribution, while achieving augmentation factors of at least 20x or more.

연구 동기 및 목표

정서 컴퓨팅 분야에서 대규모, 균형 잡힌 고품질의 연속적 영향 데이터셋 부족 문제를 해결하기 위해.
연속적인 조절성과 각성도 레이블의 높은 비용과 일관성 부족 문제를 해결하기 위해.
범주적 정서 데이터셋을 완전한 분포 제어 기능을 갖춘 연속적 데이터셋으로 제어적이고 현실적인 증강을 가능하게 하기 위해.
감정 분석 모델 훈련을 위한 지도 학습에 적합한, 정신적 정체성을 유지하면서도 일관된 차원적 영향 레이블을 가진 시각적으로 신뢰할 수 있는 얼굴 이미지를 생성하기 위해.

제안 방법

Dlib를 통해 68개의 얼굴 랜드마크 간의 얼굴 모핑을 사용하여 합성된 표정을 생성한다.
두 가지 모핑 유형을 적용한다: 정점 간 모핑(프로토타입 표현 간 선형 보간)과 중립에서 정점으로의 모핑(중립에서 정점 표현으로의 강도 변화).
조절성-각성도(VA) 원형 평면 공간에서 극좌표를 활용하여 표현을 각도와 강도로 매핑한다.
연속적인 조절성과 각성도를 다음과 같이 계산한다: V = I·cos(θ), A = I·sin(θ), 여기서 I는 강도이고 θ는 각도 위치이다.
VA 공간 전역에서 균형 잡힘과 대칭성을 확보하기 위해 15°의 각도 간격과 0.1의 강도 단위를 사용한다.
반사 및 미세 샘플링을 통해 VA 평면 전역을 커버하는 균형 잡힌 전체 커버리지 데이터셋을 생성하며, 최대 450,000장의 이미지까지 생성 가능하다.

실험 결과

연구 질문

RQ1소규모 범주적 데이터셋에서 정점 표현과 중립 얼굴 간의 얼굴 모핑을 통해 VA 공간 전역에서 체계적으로 현실적이고 다양한 표정을 생성할 수 있는가?
RQ2자동으로 생성된 연속적 레이블을 가진 합성 데이터셋이 기존의 월드 데이터셋보다 연속적 FEA 모델 훈련에 더 뛰어난 성능을 보이는가?
RQ3제어된 모핑이 표정 변화의 전체 분포 제어를 가능하게 하면서도 얼굴 정체성과 현실감을 얼마나 잘 유지하는가?
RQ4자동 생성된 조절성과 각성도 레이블이 인간 레이블링 데이터셋에 비해 얼마나 일관되고 신뢰할 수 있는가?

주요 결과

MorphSet는 최소 20배 이상의 증강 비율을 달성하여, 주제당 55,000장 이상의 이미지를 생성하고, 미세 샘플링 및 반사 처리를 통해 최대 450,000장까지 확장 가능하다.
MorphSet에서 훈련된 ResNet-18 모델은 조절성에 대해 CCC 0.915, 각성도에 대해 CCC 0.821을 기록하여, AffectNet( CCC 0.533 및 0.418)과 Aff-Wild( CCC 0.186 및 0.174)를 크게 앞서는 성능을 보였다.
MorphSet에서의 조절성과 각성도에 대한 RMSE는 각각 0.157과 0.155였으며, AffectNet(0.427 및 0.390)과 Aff-Wild(0.407 및 0.266)보다 훨씬 낮아 레이블 일관성이 높다는 것을 시사한다.
샘플링된 이미지의 시각적 점검 결과, MorphSet는 AffectNet과 Aff-Wild에 비해 훨씬 적은 표현 이질성과 이상치를 보이며, 얼굴 표정이 할당된 VA 레이블과 매우 잘 일치함을 확인하였다.
이 프레임워크는 매우 현실적이며 정체성을 유지하는 합성 이미지를 생성하여, 실제 환경에서의 FEA 시스템을 위한 강력한 훈련에 적합하다.
사용자가 VA 공간 내에서 표현의 분포를 완전히 제어할 수 있어, 특정 표현 변형과 강도를 타겟팅하여 생성할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.