QUICK REVIEW

[논문 리뷰] FaceNet2ExpNet: Regularizing a Deep Face Recognition Net for Expression Recognition

Hui Ding, S. Kevin Zhou|arXiv (Cornell University)|2016. 09. 21.

Speech and Audio Processing참고 문헌 38인용 수 38

한 줄 요약

이 논문은 사전에 훈련된 얼굴 인식 모델(FaceNet)의 깊이 있는 특징을 사용하여 표현 인식 네트워크를 정규화하는 두 단계 훈련 방법인 FaceNet2ExpNet을 제안한다. 새로운 분포 함수를 통해 고수준 뉴런 반응을 모델링하고 특징 수준의 정규화를 적용함으로써, 얼굴 표정의 의미론적 표현을 향상시킨다. 이 방법은 네 개의 공개 데이터셋에서 최신 기술 수준(SOTA) 성능을 달성하며, 이전 방법보다 최대 2.4个百分点 향상된다.

ABSTRACT

Relatively small data sets available for expression recognition research make the training of deep networks for expression recognition very challenging. Although fine-tuning can partially alleviate the issue, the performance is still below acceptable levels as the deep features probably contain redun- dant information from the pre-trained domain. In this paper, we present FaceNet2ExpNet, a novel idea to train an expression recognition network based on static images. We first propose a new distribution function to model the high-level neurons of the expression network. Based on this, a two-stage training algorithm is carefully designed. In the pre-training stage, we train the convolutional layers of the expression net, regularized by the face net; In the refining stage, we append fully- connected layers to the pre-trained convolutional layers and train the whole network jointly. Visualization shows that the model trained with our method captures improved high-level expression semantics. Evaluations on four public expression databases, CK+, Oulu-CASIA, TFD, and SFEW demonstrate that our method achieves better results than state-of-the-art.

연구 동기 및 목표

제한된 훈련 데이터로 인해 딥 네트워크 성능이 저하되는 얼굴 표정 인식 문제를 해결하기 위해.
사전 훈련된 얼굴 인식 네트워크를 미세조정할 때 발생하는 과적합 및 개인 특화된 특징 지배 문제를 극복하기 위해.
지식 정렬이나 복잡한 아키텍처에 의존하지 않고, 얼굴 인식 네트워크의 도메인 지식을 활용하여 표현 특징 표현을 향상시키기 위해.
특징 수준의 정규화와 레이블 기반의 감독을 조합한 두 단계 훈련 프레임워크를 개발하여 더 나은 분류 학습 성능을 확보하기 위해.

제안 방법

표현 네트워크의 고수준 뉴런 반응을 사전에 미세조정된 얼굴 인식 네트워크(FaceNet)의 특징 기반으로 모델링하기 위해 새로운 확률 분포 함수를 제안한다.
첫 번째 훈련 단계에서는 레이어의 활성화가 미세조정된 FaceNet의 활성화를 따라가도록 하는 회귀 손실을 사용하여 표현 네트워크의 합성곱 계층만 훈련시킨다.
정규화는 엔트로피가 낮고 의미 정보가 풍부한 후기 중간 레이어(예: VGG-16의 pool5)에 적용된다.
두 번째 단계에서는 무작위로 초기화된 완전 연결 계층을 추가하고, 표현 레이블을 사용하여 전체 네트워크를 함께 훈련시켜 분류 능력을 향상시킨다.
지식 정렬을 피하기 위해 교사 네트워크의 소프트맥스 출력을 사용하지 않고, 대신 중간 특징 맵을 정규화에 활용한다.
효율성을 위해 모델 크기를 작게 유지(11M 파라미터)하였으며, 단일 Titan X GPU에서 이미지당 추론 시간은 단지 3ms이다.

실험 결과

연구 질문

RQ1제한된 훈련 데이터에서 사전에 훈련된 얼굴 인식 네트워크의 지식이 표현 특징 학습을 향상시킬 수 있는가?
RQ2얼굴 네트워크의 중간 활성화를 사용한 특징 수준의 정규화가 기존의 미세조정보다 더 나은 표현을 제공하는가?
RQ3먼저 합성곱 계층을 정규화하고, 이후에 레이블과 함께 공동으로 훈련하는 두 단계 훈련 전략이 종단 간 미세조정보다 우수한가?
RQ4이 방법은 다양한 데이터 크기와 이미지 품질을 가진 제약 조건이 있는 및 없는 표정 데이터셋에서 어떻게 성능을 발휘하는가?

주요 결과

CK+ 데이터셋에서 FaceNet2ExpNet는 99.1%의 정확도를 달성하여 이전 최신 기술 수준인 98.4%를 크게 뛰어넘었다.
Oulu-CASIA 데이터셋에서 97.8%의 정확도를 기록하여 이전 SOTA인 96.5%를 초월했다.
TFD 데이터셋에서 평균 정확도 88.9%를 달성하여 이전 최고 기록인 86.8%보다 2.1个百分点 높았다.
제약 조건이 없는 SFEW 데이터셋에서는 외부 데이터 없이 48.19%의 정확도를 기록했고, FER2013 데이터를 사용한 경우 55.15%의 정확도를 달성하여 후행자보다 약 3% 높았다.
시각화 결과는 모델이 분노에 대한 찡그린 눈썹과 놀람에 대한 넓어진 눈과 같은 표현 특이 패턴을 학습하는 반면, 얼굴 중심의 편향을 최소화하고 있음을 보여주었다.
이 방법은 계산적으로 효율적이며, 단일 GPU에서 이미지당 추론 시간이 단지 3ms이며, 모델 크기도 11M 파라미터로 작다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.