QUICK REVIEW

[論文レビュー] Real-time Convolutional Neural Networks for Emotion and Gender Classification

Octavio Arriaga, Matías Valdenegro-Toro|arXiv (Cornell University)|Oct 20, 2017

Human Pose and Action Recognition参考文献 10被引用数 60

ひとこと要約

著者らは、同時に顔認識、性別分類、感情分類を行う2つのリアルタイムCNNアーキテクチャを提案し、IMDB性別で96%、FER-2013感情で66%の精度を達成。リアルタイム展開を可能にする軽量なミニXCEPTIONモデル（約6万パラメータ）を備え、ロボットでの実装とオープンソース公開を実現。解釈性のためのガイド付き逆伝播可視化も導入。

ABSTRACT

In this paper we propose an implement a general convolutional neural network (CNN) building framework for designing real-time CNNs. We validate our models by creating a real-time vision system which accomplishes the tasks of face detection, gender classification and emotion classification simultaneously in one blended step using our proposed CNN architecture. After presenting the details of the training procedure setup we proceed to evaluate on standard benchmark sets. We report accuracies of 96% in the IMDB gender dataset and 66% in the FER-2013 emotion dataset. Along with this we also introduced the very recent real-time enabled guided back-propagation visualization technique. Guided back-propagation uncovers the dynamics of the weight changes and evaluates the learned features. We argue that the careful implementation of modern CNN architectures, the use of the current regularization methods and the visualization of previously hidden features are necessary in order to reduce the gap between slow performances and real-time architectures. Our system has been validated by its deployment on a Care-O-bot 3 robot used during RoboCup@Home competitions. All our code, demos and pre-trained architectures have been released under an open-source license in our public repository.

研究の動機と目的

サービスロボティクスと RoboCup 文脈で堅牢でリアルタイムな顔分析の必要性を動機付ける。
パラメータを削減するために全結合層を排除した軽量CNNアーキテクチャを設計する。
リアルタイム性能を維持しつつ、性別および感情タスクで競争力のある精度を達成する。
学習特徴を解釈し、モデルの偏りを評価するための可視化を提供する。
Care-O-bot 3ロボット上でシステムを展開・検証し、オープンソースリソースを公開する。

提案手法

9層の畳み込み、バッチ正規化、ReLU、Global Average Poolingを備えた完全畳み込みベースラインモデルを開発し、約600kパラメータでIMDB性別で96%を達成する。
深さ方向分離可能畳み込みと残差モジュールを用いたXceptionに触発された軽量アーキテクチャを導入し、ミニ-Xceptionとして約6万パラメータ、性別精度95%を達成する。
最後の全結合層を排除してパラメータを削減し、最終予測にはGlobal Average Poolingを使用する。
ADAMオプティマイザでモデルを訓練し、IMDBとFER-2013データセットで検証する。
顔検出（OpenCV）と性別・感情分類器を統合して1つのリアルタイムパイプラインを実現する；特徴可視化のためのガイド付き逆伝播を実装する。

実験結果

リサーチクエスチョン

RQ1リアルタイムCNNはパラメータを大幅に削減しつつ性別・感情認識で高い精度を達成できるか？
RQ2全結合層を除去し深さwise separable畳み込みを使用することで、リアルタイム性能を維持しつつ競争力のある精度を保てるか？
RQ3学習特徴はどれくらい解釈可能で、ガイド付き逆伝播は偏りや誤検出のケースを明らかにできるか？
RQ4顔検出・性別・感情を統合したパイプラインをロボットでリアルタイムに展開できるか？
RQ5感情・性別分類タスクのモデルサイズ・速度・精度のトレードオフはどうなるか？

主な発見

完全畳み込みベースラインは約600kパラメータでIMDB性別データセットの精度を96%達成。
60kパラメータのミニ-Xceptionアーキテクチャは性別精度95%とFER-2013感情精度66%を達成。
完全なパイプライン（顔検出+性別+感情）はCPU（i5-4210M）で0.22msで実行。
モデルサイズは元のCNNと比較して約80倍削減され、ロボットでのリアルタイム展開を可能にする。
ガイド付き逆伝播の視覚化は解釈可能な特徴（例：眉間のしかめっつら、歯、眉毛など）を示し、誤分類の原因（例：メガネが怒りと混同）を診断するのに役立つ。
最終モデルの総ウェイトは855 KBのファイルに保存可能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。