[論文レビュー] Real-time Convolutional Neural Networks for Emotion and Gender Classification
本論文は、同時に顔検出・性別分類・感情分類を行うリアルタイムCNNアーキテクチャを提案し、パラメータを大幅に削減しつつロボットプラットフォーム上でリアルタイム性能を実現し、高い精度を達成する。
In this paper we propose an implement a general convolutional neural network (CNN) building framework for designing real-time CNNs. We validate our models by creating a real-time vision system which accomplishes the tasks of face detection, gender classification and emotion classification simultaneously in one blended step using our proposed CNN architecture. After presenting the details of the training procedure setup we proceed to evaluate on standard benchmark sets. We report accuracies of 96% in the IMDB gender dataset and 66% in the FER-2013 emotion dataset. Along with this we also introduced the very recent real-time enabled guided back-propagation visualization technique. Guided back-propagation uncovers the dynamics of the weight changes and evaluates the learned features. We argue that the careful implementation of modern CNN architectures, the use of the current regularization methods and the visualization of previously hidden features are necessary in order to reduce the gap between slow performances and real-time architectures. Our system has been validated by its deployment on a Care-O-bot 3 robot used during RoboCup@Home competitions. All our code, demos and pre-trained architectures have been released under an open-source license in our public repository.
研究の動機と目的
- ロボティクスおよび組み込みシステムに適したリアルタイムCNNを構築するための一般的なフレームワークを開発する。
- 顔検出、性別分類、感情分類を単一のパイプラインで実行するアーキテクチャを作成する。
- 精度を維持しつつモデルサイズと計算量を削減する。
- 学習された特徴とモデルの挙動を解釈するリアルタイムの可視化を提供する。
- モバイルロボットプラットフォームへのデプロイを実演し、オープンソース資源を提供する。
提案手法
- 2つのCNN設計を提案する:完全畳み込みニューラルネットワークのシーケンシャル設計で、Global Average Poolingを用いて全結合層を除去する設計と、depth-wise separable convolutionsと残差モジュールを備えたミニ-Xception。
- トレーニングにはAdamオプティマイザを使用する。
- パラメータを減らすために全結合層を排除し、さらに深さ方向分離可能畳み込みを適用してモデルサイズを縮小する。
- Multi-class出力のために最終層にGlobal Average Poolingとsoftmax分類器を適用する。
- 顔検出、性別、感情分類を1つのリアルタイムパイプラインに統合する。
- 学習特徴を解釈するためにguided-back-propagationビジュアライゼーションを導入する。
実験結果
リサーチクエスチョン
- RQ1リアルタイムCNNアーキテクチャは、はるかに少ないパラメータで性別と感情分類の精度で競争力を持てるだろうか。
- RQ2制約されたハードウェア上で、顔検出・性別分類・感情分類を1つのリアルタイムパイプラインで実行することは現実的か。
- RQ3深さ方向分離可能畳み込みと残差接続は、これらのタスクで精度を維持しつつパラメータを削減できるか。
- RQ4guided back-propagationを用いた可視化で、感情・性別タスクの学習特徴はどれくらい解釈可能か。
主な発見
- 全結合層を含まない完全畳み込みモデルは、約600,000パラメータでIMDB性別データセットにおいて96%の精度を達成した。
- シーケンシャルな完全CNNはFER-2013感情データセットで66%の精度を達成した。
- ミニ-Xceptionアーキテクチャは約60,000パラメータで性別精度95%、感情精度66%を達成した。
- 完全なパイプライン(顔検出、性別、感情)はi5-4210M CPUで0.22 msで動作し、元のアーキテクチャよりも高速化を実現。
- モデルウェイトは約855 KBに格納可能。
- guided-back-propagationビジュアライゼーションは、眉間のしわ、歯の見え方、眉の形など解釈可能な特徴を示し、メガネや西洋系顔特徴に関連する偏りを明らかにする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。