[논문 리뷰] Convolutional neural networks pretrained on large face recognition datasets for emotion classification from video
이 논문은 대규모 얼굴 인식 데이터셋으로 사전 훈련된 컨볼루션 신경망 앙상블을 사용하여 영상 기반 정서 분류를 제안한다. 최신 얼굴 인식 모델들(VGG-Face 및 기업 내부 개발 모델인 FR-Nets)을 미세조정하고, SVM을 통해 음성 특징과 융합함으로써, 시간적 모델링을 사용하지 않고도 EmotiW 2017 테스트 세트에서 60.03%의 정확도를 달성하여 이전 최고 성능보다 1% 향상되었다.
In this paper we describe a solution to our entry for the emotion recognition challenge EmotiW 2017. We propose an ensemble of several models, which capture spatial and audio features from videos. Spatial features are captured by convolutional neural networks, pretrained on large face recognition datasets. We show that usage of strong industry-level face recognition networks increases the accuracy of emotion recognition. Using our ensemble we improve on the previous best result on the test set by about 1 %, achieving a 60.03 % classification accuracy without any use of visual temporal information.
연구 동기 및 목표
- 강력한 사전 훈련된 얼굴 인식 모델을 활용하여 영상 기반 정서 인식 정확도를 향상시키기.
- 큰 규모의 얼굴 인식 사전 훈련을 통해 정서 데이터셋의 제한성과 불균형 문제를 해결하기.
- 다중모odal 정서 인식에서 음성 특징과 특징 공학 기법(예: 증강, 스펙트럼 특징)의 효과를 탐색하기.
- 영상 프레임을 순서 없는 집합으로 간주할 수 있는지, 영상 모델에서 시간적 순서 가정이 실제로 중요한지 검토하기.
- 영상 정서 인식 연구를 가속화하기 위해 공개 가능한 특징 저장소를 구축하기.
제안 방법
- FER2013 데이터셋에서 정서 분류를 위해 네 개의 딥 컨볼루션 신경망(VGG-Face 및 세 개의 기업 내부 얼굴 인식 네트워크, FR-Net-A, B, C)을 미세조정한다.
- 모든 영상 프레임에서 펜ultimate fully connected layer(1024D, FR-Nets용; VGG-Face의 fc6 레이어)를 사용해 프레임 수준의 특징을 추출한다.
- 통계적 연산(평균, 표준편차)을 통해 프레임 특징을 집계하고, rootSIFT 정규화 및 글로벌 표준화를 적용한다.
- 공간적 특징과 OpenSMILE를 통해 추출한 1582D 음성 특징을 융합하여 다중모달 특징을 생성한다.
- 훈련 데이터(테스트 제출을 위한 검증 데이터 포함)에서 선형 SVM을 훈련하고, 정규화를 최적화하기 위해 5겹 교차검증을 사용한다.
- LSTM 훈련 중에 프레임 셔플 증강을 적용하여 시간적 순서의 중요성을 평가하고, 영상을 순서 없는 프레임 집합으로 간주한다.
실험 결과
연구 질문
- RQ1수백만 장의 이미지로 사전 훈련된 대규모 얼굴 인식 모델이 자원이 제한된 영상 기반 정서 인식 작업에서 성능 향상에 기여할 수 있는가?
- RQ2음성 특징과 깊이 있는 공간적 특징의 다중모달 융합이 영상 기반 정서 분류에 얼마나 효과적인가?
- RQ3영상 프레임의 시간적 순서가 정서 인식에 중요한가, 아니면 영상을 순서 없는 프레임 집합으로 간주할 수 있는가?
- RQ4데이터 불균형과 클래스 빈도 분포가 모델 일반화에 미치는 영향은 무엇이며, 클래스 가중치가 불균형 테스트 세트에서 성능 향상에 기여하는가?
- RQ5고급 특징 공학 기법(예: 푸리에 변환 특징, 데이터 증강)이 성능 향상에 어떤 역할을 하는가?
주요 결과
- VGG-Face, FR-Net-A, B, C 및 음성 특징의 앙상블이 EmotiW 2017에서 60.03%의 테스트 정확도를 기록하여 이전 최고 성능보다 1% 향상되었다.
- 테스트 세트 빈도의 제곱근 기반 클래스 가중치를 사용함으로써 불균형 테스트 데이터에서 성능이 크게 향상되었으며, 특히 기쁨, 중립, 분노 표현의 인식률이 향상되었다.
- LSTM 훈련 중 프레임 셔플 증강을 적용함으로써 검증 정확도가 46.48%에서 50.39%로 향상되어 시간적 순서가 이전에 예상한 것만큼 중요하지 않다는 것을 시사했다.
- 스펙트럼 특징(뉴런 활성도의 1차원 푸리에 변환)은 검증 성능 향상에 기여했지만, 제출 제한으로 인해 테스트에서 평가할 수 없었다.
- 강력한 산업 수준의 얼굴 인식 네트워크를 사용함으로써, 명시적 시간 모델링 없이도 이전 방법보다 상당한 성능 향상을 달성했다.
- 제안된 방법은 이전 년도 최고 성능(59.02% 테스트 정확도)과 베이스라인(40.47%)을 모두 초월하여, 대규모 얼굴 인식 데이터로의 사전 훈련의 가치를 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.