Skip to main content
QUICK REVIEW

[논문 리뷰] Distribution Matching for Heterogeneous Multi-Task Learning: a Large-scale Face Study

Dimitrios Kollias, Viktoriia Sharmanska|arXiv (Cornell University)|2021. 05. 08.
Emotion and Mood Recognition참고 문헌 61인용 수 99
한 줄 요약

본 논문은 FaceBehaviorNet을 제시하며, 분포 매칭과 공동 주석을 이용해 얼굴 표정, 작동 단위(AU), 가치-각성, 그리고 얼굴 정체성 및 속성을 10개의 야생 데이터베이스에서 공동으로 학습하고 부정적 전달을 감소시키는 이질적 다중태스크 학습 프레임워크를 제시한다.

ABSTRACT

Multi-Task Learning has emerged as a methodology in which multiple tasks are jointly learned by a shared learning algorithm, such as a DNN. MTL is based on the assumption that the tasks under consideration are related; therefore it exploits shared knowledge for improving performance on each individual task. Tasks are generally considered to be homogeneous, i.e., to refer to the same type of problem. Moreover, MTL is usually based on ground truth annotations with full, or partial overlap across tasks. In this work, we deal with heterogeneous MTL, simultaneously addressing detection, classification & regression problems. We explore task-relatedness as a means for co-training, in a weakly-supervised way, tasks that contain little, or even non-overlapping annotations. Task-relatedness is introduced in MTL, either explicitly through prior expert knowledge, or through data-driven studies. We propose a novel distribution matching approach, in which knowledge exchange is enabled between tasks, via matching of their predictions' distributions. Based on this approach, we build FaceBehaviorNet, the first framework for large-scale face analysis, by jointly learning all facial behavior tasks. We develop case studies for: i) continuous affect estimation, action unit detection, basic emotion recognition; ii) attribute detection, face identification. We illustrate that co-training via task relatedness alleviates negative transfer. Since FaceBehaviorNet learns features that encapsulate all aspects of facial behavior, we conduct zero-/few-shot learning to perform tasks beyond the ones that it has been trained for, such as compound emotion recognition. By conducting a very large experimental study, utilizing 10 databases, we illustrate that our approach outperforms, by large margins, the state-of-the-art in all tasks and in all databases, even in these which have not been used in its training.

연구 동기 및 목표

  • Detect, classification, 및 regression task의 heterogeneous 다중태스크 학습을 위한 동기 부여 및 해결.
  • 부분적으로 중첩되거나 중복되지 않는 주석을 가진 태스크 간 지식 교환을 가능하게 하는 분포 매칭 기반 커플링 메커니즘 개발.
  • 부정적 전달을 완화하기 위한 공동 주석(co-annotation) 및 분포 매칭 손실 도입.
  • 대규모 얼굴 분석을 위한 최초의 홀리스틱 프레임워크로 FaceBehaviorNet 구축.
  • 강한 데이터베이스 간 성능 및 제로샷/소수샷 일반화 시연.

제안 방법

  • 태스크 T_i 및 분포 D_i를 갖는 이질적 다중태스크 학습을 형식화하고, 태스크 간 평균 기대 손실을 최소화하는 것을 목표로 한다.
  • 학습 중 태스크를 커플링하기 위한 태스크 관련성(도메인 지식 또는 데이터셋으로부터의 경험)을 도입한다.
  • 주석이 태스크 간에 존재할 때 관련 태스크 레이블을 제약하기 위해 공동 주석을 제안한다.
  • 감정에 대한 혼합 분포 q(y_au|x) 를 통한 태스크 예측을 정렬하기 위한 분포 매칭(distillation-like) 손실 L_DM 을 제안한다.
  • 주석이 불완전한 경우 커플링을 강화하기 위해 소프트 공동 주석 변형 및 소프트 타깃(L_SCA) 을 정의한다.
  • 2차 사례 연구로 아이덴티티와 40개 속성을 분포 매칭으로 결합하는 접근법으로 확장한다.
  • 학습된 얼굴 행동 특징을 활용하여 제로샷 및 소수샷의 합성 표현 인식 성능을 입증한다.

실험 결과

연구 질문

  • RQ1왜 서로 다른 분류, 탐지, 회귀 태스크를 하나의 모델에서 학습하여 얼굴 분석 도메인의 성능을 개선할 수 있는가?
  • RQ2도메인 지식이나 Empirical 데이터셋 주석을 통해 태스크 관련성을 효과적으로 인코딩하여 지식 전이를 가능하게 할 수 있는가?
  • RQ3분포 매칭 기반 커플링이 얼굴 분석의 다중태스크 학습에서 부정적 전달을 완화하는가?
  • RQ4하나의 홀리스틱 모델이 대규모 야생 데이터셋에서 affective computing 및 얼굴 인식 태스크에 대해 얼마나 잘 작동하는가?
  • RQ5학습된 특징이 합성 표현의 제로샷 및 소수샷 인식을 지원하는가?

주요 결과

  • FaceBehaviorNet은 모든 태스크 및 연구된 10개 데이터베이스에서 단일 태스크 네트워크보다 더 나은 성능을 보인다.
  • 이질적 태스크 간의 분포 매칭 기반 지식 증류가 부정적 전달을 성공적으로 감소시킨다.
  • 학습된 홀리스틱 표현을 이용한 합성 정서 인식에 대해 제로샷 및 소수샷 학습이 가능하다.
  • 공동 주석 및/또는 분포 매칭에 의한 태스크 커플링은 학습 중 보지 않은 데이터베이스에서도 성능을 향상시킨다.
  • 본 방법은 감정(감정, AU, 가치-각성) 및 얼굴 인식 속성(정체성, 속성) 태스크에서 최첨단 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.