QUICK REVIEW

[논문 리뷰] Real-time Convolutional Neural Networks for Emotion and Gender Classification

Octavio Arriaga, Matías Valdenegro-Toro|arXiv (Cornell University)|2017. 10. 20.

Face recognition and analysis인용 수 154

한 줄 요약

이 논문은 얼굴 탐지, 성별 분류, 감정 분류를 동시에 수행하는 실시간 CNN 아키텍처를 제시하며, 파라미터를 크게 줄이고 로봇 플랫폼에서 실시간 성능을 달성하면서 높은 정확도를 보인다.

ABSTRACT

In this paper we propose an implement a general convolutional neural network (CNN) building framework for designing real-time CNNs. We validate our models by creating a real-time vision system which accomplishes the tasks of face detection, gender classification and emotion classification simultaneously in one blended step using our proposed CNN architecture. After presenting the details of the training procedure setup we proceed to evaluate on standard benchmark sets. We report accuracies of 96% in the IMDB gender dataset and 66% in the FER-2013 emotion dataset. Along with this we also introduced the very recent real-time enabled guided back-propagation visualization technique. Guided back-propagation uncovers the dynamics of the weight changes and evaluates the learned features. We argue that the careful implementation of modern CNN architectures, the use of the current regularization methods and the visualization of previously hidden features are necessary in order to reduce the gap between slow performances and real-time architectures. Our system has been validated by its deployment on a Care-O-bot 3 robot used during RoboCup@Home competitions. All our code, demos and pre-trained architectures have been released under an open-source license in our public repository.

연구 동기 및 목표

로봇 공학 및 임베디드 시스템에 적합한 실시간 CNN을 구축하기 위한 일반 프레임워크 개발.
얼굴 탐지, 성별 분류, 감정 분류를 하나의 파이프라인에서 수행하는 아키텍처 생성.
정확도를 유지하면서 모델 크기와 계산량을 줄인다.
학습된 특징과 모델 동작을 해석하기 위한 실시간 시각화를 제공한다.
모바일 로봇 플랫폼에서 배치를 시연하고 오픈 소스 자원을 공개한다.

제안 방법

두 가지 CNN 설계 제안: 완전 연결층 제거를 위해 Global Average Pooling을 사용하는 순차적 완전 CNN과 깊이별 분리 합성곱과 잔차 모듈을 사용하는 미니-Xception.
학습에 Adam 옵티마이저를 사용한다.
파라미터를 줄이기 위해 완전 연결층을 제거하고 깊이별 분리 합성곱으로 모델 크기를 더 축소한다.
최종 계층에 Global Average Pooling과 소프트맥스 분류기를 적용하여 다중 클래스 출력을 수행한다.
얼굴 탐지, 성별, 감정 분류를 하나의 실시간 파이프라인으로 통합한다.
학습된 특징을 해석하기 위한 guided-back-propagation 시각화를 도입한다.

실험 결과

연구 질문

RQ1실시간 CNN 아키텍처가 훨씬 적은 파라미터로도 성별 및 감정 분류 정확도에서 경쟁력을 달성할 수 있는가?
RQ2제약된 하드웨어에서 얼굴 탐지, 성별 분류, 감정 분류를 하나의 실시간 파이프라인으로 실행하는 것이 가능한가?
RQ3깊이별 분리 합성곱 및 잔차 연결이 이러한 작업에서 정확도를 유지하면서 파라미터를 감소시키는가?
RQ4감정 및 성별 작업에 대해 guided back-propagation으로 시각화했을 때 학습된 특징의 해석 가능성은 어느 정도인가?

주요 결과

완전-합성곱 모델은 약 60만 개의 파라미터로 IMDB 성별 데이터셋에서 96% 정확도를 달성했다.
순차적 완전 CNN은 FER-2013 감정 데이터셋에서 66%의 정확도를 달성했다.
미니-Xception 아키텍처는 약 6만 개의 파라미터로 성별 정확도 95%와 감정 정확도 66%를 달성했다.
전체 파이프라인(얼굴 탐지, 성별, 감정)은 i5-4210M CPU에서 0.22 ms로 실행되며 원래 아키텍처 대비 속도 향상을 나타낸다.
모델 가중치는 약 855 KB에 저장될 수 있다.
Guided back-propagation 시각화는 찡그린 주름, 이빨 보임, 눈썹 모양 등의 해석 가능한 특징을 보여주며 안경 착용 여부나 서양 얼굴 특징과 관련된 편향을 드러낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.