QUICK REVIEW

[논문 리뷰] DAGER: Deep Age, Gender and Emotion Recognition Using Convolutional Neural Network

Afshin Dehghan, Enrique Ortiz|arXiv (Cornell University)|2017. 02. 14.

Emotion and Mood Recognition참고 문헌 5인용 수 80

한 줄 요약

DAGER는 실제 나이, 겉보기 나이, 성별 및 감정 인식용 CNN의 엔드투엔드 시스템을 제시하며, 대형 내부 데이터세트에서 학습되고 벤치마크에서 최첨단 성능을 달성합니다.

ABSTRACT

This paper describes the details of Sighthound's fully automated age, gender and emotion recognition system. The backbone of our system consists of several deep convolutional neural networks that are not only computationally inexpensive, but also provide state-of-the-art results on several competitive benchmarks. To power our novel deep networks, we collected large labeled datasets through a semi-supervised pipeline to reduce the annotation effort/time. We tested our system on several public benchmarks and report outstanding results. Our age, gender and emotion recognition models are available to developers through the Sighthound Cloud API at https://www.sighthound.com/products/cloud

연구 동기 및 목표

실제 응용 프로그램(보안, HCI, 식별)에서 강 robust한 얼굴 속성 인식의 동기를 부여합니다.
나이, 성별, 감정 추정에 대해 엔드투엔드이면서 계산적으로 효율적인 파이프라인을 개발합니다.
각 속성마다 특화된 네트워크를 학습시키기 위해 대규모 반지도학습 데이터를 활용합니다.

제안 방법

4백만 장 이상의 이미지와 40,000+ 신원에서의 백본 얼굴 인식 모델을 학습하여 특징 추출기로 활용합니다.
백본 특징을 이용해 실 나이, 겉보기 나이, 성별, 감정에 대한 작업 특화 네트워크를 미세 조정합니다.
네트워크 학습 전 얼굴 검출, 랜드마크 기반 정렬(68점), 표준 입력으로의 자르기를 수행합니다.
대규모의 나이/성별/감정 데이터세트를 큐레이션하기 위한 반자동 데이터 라벨링 파이프라인을 활용합니다.
공개 벤치마크 및 상용 API와의 비교를 통해 성능 향상을 입증합니다.
개발자를 위한 Sighthound Cloud API를 통해 모델을 제공합니다.

실험 결과

연구 질문

RQ1단일 백본 네트워크와 작업 특화 헤드가 실제 나이, 겉보기 나이, 성별, 감정 인식에서 높은 정확도를 달성할 수 있나요?
RQ2대규모 내부 데이터와 반지도 학습 라벨링이 공개 데이터세트 및 기존 상용 시스템에 비해 정확도를 향상시키나요?
RQ3이 모델들이 표준 벤치마크(Group, Adience, Chalearn)에서 어떻게 수행되며 상용 API와는 어떻게 대조되나요?
RQ4얼굴 속성 인식을 위한 별도 태스크 네트워크 설계가 다태스크 방식의 일괄 모델보다 더 효율적이고 정확한가요?

주요 결과

실제 나이 추정: Sighthound가 내부 데이터세스에서 MAE 5.76을 달성하며 Rothe et al. (7.34), Microsoft (7.62), Kairos (10.57), Face++ (11.04)을 능가합니다.
Group 데이터셋: 상위 1개 정확도 70.5%, 1-오프 정확도 96.2%로 Hou et al., Rothe et al., Dong et al. 및 기타를 능가합니다.
Adience 벤치마크: 상위 1개 정확도 61.3% (±3.7%), 다수의 이전 방법을 상회합니다.
겉보기 나이 추정: Chalearn LAP 2016에서 테스트 오차 0.319를 달성, 두 번째를 차지하고 최상위 다중 CNN 접근법보다 빠른 속도의 단일 CNN을 사용했습니다.
감정 인식: Sighthound 전용 데이터셋에서 정확도 76.1%로 Microsoft Face API(61.3%)를 능가합니다.
성별 인식: Adience 벤치마크 정확도 91.00%로 Microsoft(90.86%) 및 다수의 이전 방법을 능가합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.