[논문 리뷰] FAU, Facial Expressions, Valence and Arousal: A Multi-task Solution
이 논문은 얼굴 동작 단위 검출, 표정 분류, 밸런스-도전도 추정을 위한 통합 다중 작업 학습 프레임워크를 제안한다. 소프트 레이블을 활용한 교사-학생 모델의 이중 단계 정제 기반 접근 방식을 통해 클래스 불균형과 완전하지 않은 레이블을 해결하며, 모든 세 가지 작업에서 교사 모델보다 뛰어난 성능을 달성한다. 또한 앙상블 기반 모델 통합을 통해 성능을 추가로 향상시킨다.
We train a unified model to perform three tasks: facial action unit detection, expression classification, and valence-arousal estimation. We address two main challenges of learning the three tasks. First, most existing datasets are highly imbalanced. Second, most existing datasets do not contain labels for all three tasks. To tackle the first challenge, we apply data balancing techniques to experimental datasets. To tackle the second challenge, we propose an algorithm for the multitask model to learn from missing (incomplete) labels. This algorithm has two steps. We first train a teacher model to perform all three tasks, where each instance is trained by the ground truth label of its corresponding task. Secondly, we refer to the outputs of the teacher model as the soft labels. We use the soft labels and the ground truth to train the student model. We find that most of the student models outperform their teacher model on all the three tasks. Finally, we use model ensembling to boost performance further on the three tasks.
연구 동기 및 목표
- 얼굴 동작 단위 검출, 표정 분류, 밸런스-도전도 추정을 동시에 수행할 수 있는 통합 딥 러닝 모델을 개발한다.
- 얼굴 표정 분석에서 흔히 나타나는 극도로 불균형한 데이터셋 문제를 해결한다.
- 세 가지 작업 모두에 대한 완전한 레이블이 없는 훈련 데이터 상황에서도 효과적인 다중 작업 학습을 가능하게 한다.
- 소프트 레이블 기반의 교사-학생 정제 프레임워크를 통해 모든 세 가지 작업의 일반화 능력과 성능을 향상시킨다.
- 학생 모델의 앙상블을 통해 최종 성능을 향상시킨다.
제안 방법
- 모든 세 가지 작업에 대해 진짜 레이블을 사용하여 교사 모델을 훈련하며, 각 샘플은 해당 작업의 레이블만을 기반으로 훈련된다.
- 교사 모델의 예측 결과에서 소프트 레이블을 생성하여 모든 작업에 대해 활용하며, 특정 작업의 진짜 레이블이 누락된 경우에도 이를 적용한다.
- 소프트 레이블과 이용 가능한 진짜 레이블을 활용하여 다중 작업 학습 환경에서 학생 모델을 훈련한다.
- 실험 데이터셋 내의 클래스 불균형 문제를 완화하기 위해 데이터 균형 조정 기법을 적용한다.
- 이중 단계 훈련 프로세스를 구현: 먼저 교사 모델을 사전 훈련하고, 이후 소프트 레이블을 활용해 지식을 학생 모델에 정제한다.
- 여러 개의 학생 모델을 앙상블하여 모든 세 가지 작업에서 성능을 추가로 향상시킨다.
실험 결과
연구 질문
- RQ1완전하지 않은 레이블이 존재하는 상황에서도 통합 모델이 얼굴 동작 단위 검출, 표정 분류, 밸런스-도전도 추정을 동시에 효과적으로 학습할 수 있는가?
- RQ2교사 모델의 소프트 레이블을 활용한 지식 정제 방식이 직접 교사 모델을 훈련하는 것보다 모든 세 가지 작업에서 성능을 향상시키는가?
- RQ3데이터 균형 조정 기법이 얼굴 표정 데이터셋의 클래스 불균형으로 인한 성능 저하를 어느 정도 완화할 수 있는가?
- RQ4학생 모델 단독 성능을 초월하여 앙상블을 통해 모든 세 가지 작업에서 성능 향상이 이루어지는가?
- RQ5소프트 레이블을 활용해 훈련된 학생 모델이 모든 세 가지 작업에서 교사 모델을 초월할 수 있는가?
주요 결과
- 학생 모델은 얼굴 동작 단위 검출, 표정 분류, 밸런스-도전도 추정 모두에서 교사 모델을 일관되게 초월한다.
- 교사 모델의 소프트 레이블 활용으로 인해 일부 작업의 진짜 레이블이 누락된 경우에도 효과적인 학습이 가능하다.
- 데이터 균형 조정 기법이 불균형한 데이터셋에서 모델 성능을 크게 향상시킨다.
- 학생 모델 단독 성능을 초월하여 앙상블을 통해 모든 세 가지 작업에서 추가적인 성능 향상이 이루어진다.
- 정제 기반의 다중 작업 프레임워크가 연구에서 사용된 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.