[논문 리뷰] Multi-task, multi-label and multi-domain learning with residual convolutional networks for emotion recognition
논문은 데이터 세트별 선택 시그모이드 교차 엔트로피 손실을 사용하여 여러 작업, 라벨, 데이터셋에서 단일 CNN을 학습시키는 selective joint multi-task learning (SJMT) 프레임워크를 제시하고, 단일 작업 및 고전적 다중 작업 벤치마크 대비 감정 및 AU 인식 성능을 향상시킨다.
Automated emotion recognition in the wild from facial images remains a challenging problem. Although recent advances in Deep Learning have supposed a significant breakthrough in this topic, strong changes in pose, orientation and point of view severely harm current approaches. In addition, the acquisition of labeled datasets is costly, and current state-of-the-art deep learning algorithms cannot model all the aforementioned difficulties. In this paper, we propose to apply a multi-task learning loss function to share a common feature representation with other related tasks. Particularly we show that emotion recognition benefits from jointly learning a model with a detector of facial Action Units (collective muscle movements). The proposed loss function addresses the problem of learning multiple tasks with heterogeneously labeled data, improving previous multi-task approaches. We validate the proposal using two datasets acquired in non controlled environments, and an application to predict compound facial emotion expressions.
연구 동기 및 목표
- 자연환경에서의 감정 인식과 그 데이터 부족 문제를 동기 부여한다.
- 감정 및 AU 탐지를 위한 다중 작업, 다중 라벨, 다중 도메인 학습 프레임워크를 도입한다.
- 부분적으로 라벨링된 데이터를 처리하기 위한 데이터셋별 선택 시그모이드 교차 엔트로피 손실을 제안한다.
- SJMT가 잔여 네트워크와 함께 단일 작업 및 고전적 다중 작업 벤치마크를 여러 데이터셋에서 능가함을 보여준다.
제안 방법
- 공통 특징 표현을 공유하기 위해 ResNet 기반 CNN 아키텍처를 채택한다.
- 부분적으로 라벨링된 데이터를 처리하는 데이터셋별 선택 시그모이드 교차 엔트로피 손실을 도입한다.
- 비동질 라벨 공간을 사용하여 감정 인식(7개 클래) 및 AU 탐지(다중 라벨)를 공동으로 학습한다.
- 개별 출력 헤드를 갖춘 단일 작업 CNN 및 전통적 다중 작업 학습과 비교한다.
- SFEW(감정) 및 EmotioNet(AUs), 추가로 하이퍼파라미터 튜닝용 CK+ 부분집합에서 평가한다.
실험 결과
연구 질문
- RQ1데이터셋별 선택 공유 손실이 감정 및 AU 인식을 위한 다중 작업, 다중 라벨, 다중 도메인 학습을 향상시킬 수 있는가?
- RQ2SJMT가 wild-emotion 데이터세트에서 전통적 다중 작업 학습 및 단일 작업 네트워크를 능가하는가?
- RQ3joint learning이 AU 라벨이 없는 이미지에 대해 신뢰할 수 있는 AU 추론을 가능하게 하는 정도는 어느 정도인가?
- RQ4합성 감정 인식 작업에서 이 접근법은 어떻게 성능을 발휘하는가?
주요 결과
| 방법 | 네트워크 | SFEW (감정) | EmotioNet (AU들) |
|---|---|---|---|
| Multi-task | ResNet-32 | 39.4% | 93.7% |
| Multi-task | ResNet-110 | 40.3% | 93.6% |
| SJMT | ResNet-32 | 40.6% | 93.5% |
| SJMT | ResNet-110 | 45.9% | 93.9% |
- SJMT with ResNet-110이 평가 데이터셋 전반에서 최고의 감정 및 AU 인식을 달성했다 (SFEW에서 감정 45.9%, EmotioNet에서 AU 93.9%).
- SJMT는 일반적으로 고전적 다중 작업 접근법 및 단일 작업 네트워크보다 우수했고, ResNet-110이 가장 강력한 결과를 냈다(감정과 AU 모두).
- 이 접근법은 감정으로 라벨링된 이미지에서 일관된 AU 추론을 가능하게 했으며, 예측된 감정과 정렬된 AU 예측으로 입증된다(감정별 평균 AU 점수).
- 합성 감정 인식은 공동학습의 혜택을 누렸으며, SJMT는 여러 합성 클래스에서 단일 작업 방식에 비해 상당한 이득을 보였다(예: Angry-Disgusted, Fearfully Angry, Happily Disgusted).
- 실험 전반에 걸쳐 제시된 손실 함수가 부분적으로 라벨링된 데이터를 효과적으로 다룰 수 있어 데이터셋 간 공유 학습을 가능하게 하되 라벨링되지 않은 작업을 페널티하지 않았다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.