QUICK REVIEW

[논문 리뷰] Multi-task, multi-label and multi-domain learning with residual convolutional networks for emotion recognition

Gérard Pons, David Masip Rodó|arXiv (Cornell University)|2018. 02. 19.

Emotion and Mood Recognition참고 문헌 34인용 수 41

한 줄 요약

논문은 데이터 세트별 선택 시그모이드 교차 엔트로피 손실을 사용하여 여러 작업, 라벨, 데이터셋에서 단일 CNN을 학습시키는 selective joint multi-task learning (SJMT) 프레임워크를 제시하고, 단일 작업 및 고전적 다중 작업 벤치마크 대비 감정 및 AU 인식 성능을 향상시킨다.

ABSTRACT

Automated emotion recognition in the wild from facial images remains a challenging problem. Although recent advances in Deep Learning have supposed a significant breakthrough in this topic, strong changes in pose, orientation and point of view severely harm current approaches. In addition, the acquisition of labeled datasets is costly, and current state-of-the-art deep learning algorithms cannot model all the aforementioned difficulties. In this paper, we propose to apply a multi-task learning loss function to share a common feature representation with other related tasks. Particularly we show that emotion recognition benefits from jointly learning a model with a detector of facial Action Units (collective muscle movements). The proposed loss function addresses the problem of learning multiple tasks with heterogeneously labeled data, improving previous multi-task approaches. We validate the proposal using two datasets acquired in non controlled environments, and an application to predict compound facial emotion expressions.

연구 동기 및 목표

자연환경에서의 감정 인식과 그 데이터 부족 문제를 동기 부여한다.
감정 및 AU 탐지를 위한 다중 작업, 다중 라벨, 다중 도메인 학습 프레임워크를 도입한다.
부분적으로 라벨링된 데이터를 처리하기 위한 데이터셋별 선택 시그모이드 교차 엔트로피 손실을 제안한다.
SJMT가 잔여 네트워크와 함께 단일 작업 및 고전적 다중 작업 벤치마크를 여러 데이터셋에서 능가함을 보여준다.

제안 방법

공통 특징 표현을 공유하기 위해 ResNet 기반 CNN 아키텍처를 채택한다.
부분적으로 라벨링된 데이터를 처리하는 데이터셋별 선택 시그모이드 교차 엔트로피 손실을 도입한다.
비동질 라벨 공간을 사용하여 감정 인식(7개 클래) 및 AU 탐지(다중 라벨)를 공동으로 학습한다.
개별 출력 헤드를 갖춘 단일 작업 CNN 및 전통적 다중 작업 학습과 비교한다.
SFEW(감정) 및 EmotioNet(AUs), 추가로 하이퍼파라미터 튜닝용 CK+ 부분집합에서 평가한다.

실험 결과

연구 질문

RQ1데이터셋별 선택 공유 손실이 감정 및 AU 인식을 위한 다중 작업, 다중 라벨, 다중 도메인 학습을 향상시킬 수 있는가?
RQ2SJMT가 wild-emotion 데이터세트에서 전통적 다중 작업 학습 및 단일 작업 네트워크를 능가하는가?
RQ3joint learning이 AU 라벨이 없는 이미지에 대해 신뢰할 수 있는 AU 추론을 가능하게 하는 정도는 어느 정도인가?
RQ4합성 감정 인식 작업에서 이 접근법은 어떻게 성능을 발휘하는가?

주요 결과

방법	네트워크	SFEW (감정)	EmotioNet (AU들)
Multi-task	ResNet-32	39.4%	93.7%
Multi-task	ResNet-110	40.3%	93.6%
SJMT	ResNet-32	40.6%	93.5%
SJMT	ResNet-110	45.9%	93.9%

SJMT with ResNet-110이 평가 데이터셋 전반에서 최고의 감정 및 AU 인식을 달성했다 (SFEW에서 감정 45.9%, EmotioNet에서 AU 93.9%).
SJMT는 일반적으로 고전적 다중 작업 접근법 및 단일 작업 네트워크보다 우수했고, ResNet-110이 가장 강력한 결과를 냈다(감정과 AU 모두).
이 접근법은 감정으로 라벨링된 이미지에서 일관된 AU 추론을 가능하게 했으며, 예측된 감정과 정렬된 AU 예측으로 입증된다(감정별 평균 AU 점수).
합성 감정 인식은 공동학습의 혜택을 누렸으며, SJMT는 여러 합성 클래스에서 단일 작업 방식에 비해 상당한 이득을 보였다(예: Angry-Disgusted, Fearfully Angry, Happily Disgusted).
실험 전반에 걸쳐 제시된 손실 함수가 부분적으로 라벨링된 데이터를 효과적으로 다룰 수 있어 데이터셋 간 공유 학습을 가능하게 하되 라벨링되지 않은 작업을 페널티하지 않았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.