[論文レビュー] Facial Expression Recognition using Convolutional Neural Networks: State of the Art
この論文はCNNベースの表情認識(FER)手法をレビューし、ボトルネックを特定し、現代の深層CNNのアンサンブルが追加データや顔登録なしでFER2013の最先端性能(75.2%)を達成することを示します。
The ability to recognize facial expressions automatically enables novel applications in human-computer interaction and other areas. Consequently, there has been active research in this field, with several recent works utilizing Convolutional Neural Networks (CNNs) for feature extraction and inference. These works differ significantly in terms of CNN architectures and other factors. Based on the reported results alone, the performance impact of these factors is unclear. In this paper, we review the state of the art in image-based facial expression recognition using CNNs and highlight algorithmic differences and their performance impact. On this basis, we identify existing bottlenecks and consequently directions for advancing this research field. Furthermore, we demonstrate that overcoming one of these bottlenecks - the comparatively basic architectures of the CNNs utilized in this field - leads to a substantial performance increase. By forming an ensemble of modern deep CNNs, we obtain a FER2013 test accuracy of 75.2%, outperforming previous works without requiring auxiliary training data or face registration.
研究の動機と目的
- 自然な条件下でFERの性能に影響を与えるCNNアーキテクチャと前処理の選択を評価する。
- FERの性能を制限するボトルネックを特定し、それらを克服する方向性を提案する。
- 一貫した設定でCNNアーキテクチャを経験的に比較し、アーキテクチャの影響を分離する。
- 現代の深層CNNがアンサンブル手法を介して従来のFERモデルより優れていることを示す。
提案手法
- 6つのCNNベースFER手法とそれらの前処理、アーキテクチャ、訓練/推論プロトコルをレビューする。
- FER2013データと標準的な照明補正を用いた共通プロトコルでアーキテクチャを経験的に再実装する。
- すべての畳み込み層と全結合層の後にバッチ正規化を導入し、最初の全結合層の後にドロップアウトを追加して頑健性を向上させる。
- 横方向反転、ランダムクロップなどの比較可能なデータ拡張でネットワークを訓練し、アーキテクチャごとにグリッドサーチされたドロップアウトを適用する。
- 10-同士クロップテストを評価し、アーキテクチャ間で学習表現を比較するためにMLPバックエンドを使用する。
実験結果
リサーチクエスチョン
- RQ1現実的なデータでFER性能に最も影響を与える前処理、アーキテクチャ、訓練戦略は何か?
- RQ2一貫した条件で評価した場合、より深い現代のCNNは従来のFER専用アーキテクチャより優れているか?
- RQ3補助データや登録なしで深層CNNのアンサンブルは既存のFER手法を凌ぐことができるか?
- RQ4CNNベースFERの主なボトルネックは何か、データとデータセットの偏りをどう緩和できるか?
主な発見
- FER2013はトレーニング/検証/テストの分割が28,709、3,589、3,589サンプルの、グレースケール48x48の顔クロップ35,887枚で構成される。
- 同一プロトコルで評価した場合、浅いCNNが深いモデルを上回ることがあり、FERの性能はアーキテクチャの深さだけが決定要因ではないことを示唆する。
- 現代の深層CNNを用い、最大8モデルのアンサンブルで補助データや顔登録なしにFER2013のテスト精度75.2%を達成。
- データ拡張とアンサンブル投票は一般化を大幅に改善する;登録は利得を与えることがあるが、強力な結果には必須ではない。
- 深いアーキテクチャ(VGG、Inception、ResNet)は慎重な正則化とともに、データセット固有のコツなしで従来のFER手法を上回り、競争力のある結果を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。