[논문 리뷰] Using Self-Supervised Co-Training to Improve Facial Representation.
이 논문은 얼굴 표현 학습을 위한 다중 작업 프레임워크인 하이브리드 학습(HL)을 제안한다. 이 프레임워크는 자기지도 학습 공훈련(self-supervised co-training)과 지도 학습을 결합한다. 지도 학습 기반의 얼굴 표정 인식과 자율 학습 전처리 작업인 퍼즐 조립 및 이미지 복원을 함께 학습함으로써, 추가 데이터 없이 AffectNet에서 성능을 향상시키고, 헤드 포즈 추정에서 오차를 최대 9%까지 감소시키며, 저자료 및 강한 증강 설정에서 과적합을 완화한다.
In this paper, at first, the impact of ImageNet pre-training on Facial Expression Recognition (FER) was tested under different augmentation levels. It could be seen from the results that training from scratch could reach better performance compared to ImageNet fine-tuning at stronger augmentation levels. After that, a framework was proposed for standard Supervised Learning (SL), called Hybrid Learning (HL) which used Self-Supervised co-training with SL in Multi-Task Learning (MTL) manner. Leveraging Self-Supervised Learning (SSL) could gain additional information from input data like spatial information from faces which helped the main SL task. It is been investigated how this method could be used for FER problems with self-supervised pre-tasks such as Jigsaw puzzling and in-painting. The supervised head (SH) was helped by these two methods to lower the error rate under different augmentations and low data regime in the same training settings. The state-of-the-art was reached on AffectNet via two completely different HL methods, without utilizing additional datasets. Moreover, HL's effect was shown on two different facial-related problem, head poses estimation and gender recognition, which concluded to reduce in error rate by up to 9% and 1% respectively. Also, we saw that the HL methods prevented the model from reaching overfitting.
연구 동기 및 목표
- 강한 데이터 증강과 저자료 환경에서 자기지도 학습 전훈련이 얼굴 표현 학습에 기여하는지 조사하기 위해.
- 자기지도 학습 공훈련을 지도 학습과 융합한 다중 작업 학습 프레임워크를 개발하기 위해.
- 퍼즐 조립 및 이미지 복원과 같은 자기지도 학습 전처리 작업이 일반화 능력 향상과 과적합 감소에 기여하는지 평가하기 위해.
- 표현 인식을 넘어서 다른 얼굴 분석 작업으로의 이식 가능성(transferability)을 입증하기 위해.
- 외부 데이터셋을 사용하지 않고 AffectNet에서 최고 성능을 달성하기 위해.
제안 방법
- 제안된 하이브리드 학습(HL) 프레임워크는 다중 작업 학습 환경에서 지도 학습과 자기지도 학습 공훈련을 결합한다.
- 두 가지 자기지도 학습 전처리 작업인 퍼즐 조립과 이미지 복원을 통해 얼굴 이미지의 공간적 및 구조적 정보를 추출한다.
- 학습 중에 지도 학습을 위한 헤드와 전처리 작업을 위한 자기지도 학습 헤드를 함께 최적화한다.
- 공유된 특징 추출기로 종단 간(end-to-end) 학습을 수행함으로써, 자기지도 학습 작업에서의 지식 정착(knowledge distillation)을 가능하게 한다.
- 다양한 증강 수준과 데이터 제약 조건에서의 성능 평가를 통해 강인성과 일반화 능력을 평가한다.
- 헤드 포즈 추정 및 성별 인식과 같은 다른 얼굴 분석 작업으로의 확장성을 검증하기 위해 프레임워크를 확장한다.
실험 결과
연구 질문
- RQ1강한 데이터 증강과 저자료 환경에서 자기지도 학습 공훈련이 얼굴 표정 인식 성능 향상에 기여하는가?
- RQ2퍼즐 조립 및 이미지 복원과 같은 자기지도 학습 전처리 작업이 지도 학습 기반 얼굴 인식 모델의 표현 능력을 향상시키는가?
- RQ3기본적인 지도 학습 또는 ImageNet 미세조정과 비교해 볼 때 제안된 하이브리드 학습 프레임워크가 과적합을 줄이는가?
- RQ4HL 프레임워크가 표현 인식을 넘어서 다른 얼굴 분석 작업으로 일반화되는 정도는 어느 정도인가?
- RQ5추가 데이터셋을 사용하지 않고 AffectNet에서 최고 성능을 달성할 수 있는가?
주요 결과
- 강한 데이터 증강 조건에서, 외부 사전 훈련 없이 초기 학습을 수행한 결과가 ImageNet 미세조정보다 우수한 성능을 보였으며, 이는 고증강 환경에서 사전 훈련이 항상 FER에 유리하지 않음을 시사한다.
- HL 프레임워크는 기준 지도 학습 대비 헤드 포즈 추정에서 최대 9%의 오차 감소와 성별 인식에서 1%의 오차 감소를 기록했다.
- HL 프레임워크는 외부 데이터셋을 사용하지 않고도 AffectNet에서 최고 성능을 달성했다.
- 자기지도 학습 전처리 작업은 특히 공간적 구조 정보를 보완적으로 제공하여 주된 지도 학습 작업의 일반화 능력을 향상시켰다.
- 특히 저자료 및 고증강 조건에서 과적합을 효과적으로 방지하였다.
- 다양한 증강 수준에서 일관된 성능 향상이 관찰되어, 제안된 공훈련 전략의 강인성이 입증되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.