QUICK REVIEW

[論文レビュー] Confidence-Weighted Local Expression Predictions for Occlusion Handling in Expression Recognition and Action Unit detection

Arnaud Dapogny, Kévin Bailly|arXiv (Cornell University)|Jul 21, 2016

Emotion and Mood Recognition参考文献 51被引用数 69

ひとこと要約

本稿では、非遮断面部多様体をモデル化する階層的オートエナボーダを用いて信頼度スコアを取得する空間的に定義された顔の局所的サブ領域に基づくランダムフォレストを用いた、信頼度重み付き局所的表現予測（LEPs）を提案する。この手法は、部分的遮断やポーズ変化下でも頑健な性能を発揮し、リアルタイムの推論が可能で、信頼性が向上する。

ABSTRACT

Fully-Automatic Facial Expression Recognition (FER) from still images is a challenging task as it involves handling large interpersonal morphological differences, and as partial occlusions can occasionally happen. Furthermore, labelling expressions is a time-consuming process that is prone to subjectivity, thus the variability may not be fully covered by the training data. In this work, we propose to train Random Forests upon spatially defined local subspaces of the face. The output local predictions form a categorical expression-driven high-level representation that we call Local Expression Predictions (LEPs). LEPs can be combined to describe categorical facial expressions as well as Action Units (AUs). Furthermore, LEPs can be weighted by confidence scores provided by an autoencoder network. Such network is trained to locally capture the manifold of the non-occluded training data in a hierarchical way. Extensive experiments show that the proposed LEP representation yields high descriptive power for categorical expressions and AU occurrence prediction, and leads to interesting perspectives towards the design of occlusion-robust and confidence-aware FER systems.

研究の動機と目的

静止画像ベースの顔の表情認識（FER）およびアクションユニット（AU）検出における部分的顔面遮断の課題に対処すること。
遮断、形態的差異、および訓練データカバレッジの制限といった現実世界の変動に苦しむ既存のFERシステムの限界を克服すること。
局所的顔のパターンを信頼度に配慮した重み付けで捉える、高レベルの表現ドリブンの表現（LEPs）を構築し、より頑健な性能を実現すること。
多様体学習と局所的予測モデルを統合することで、リアルタイムで信頼度に配慮したFERおよびAU検出を可能にすること。
合成的遮断に依存せずに、制約のない環境での応用をサポートするスケーラブルで効率的なフレームワークを提供すること。

提案手法

顔の空間的に定義された局所的サブ領域（LEPs）上でランダムフォレストを学習させ、カテゴリカルな表情およびAUの有無を予測する。
キーポイント周辺の非遮断面部データの多様体を学習する階層的オートエナボーダネットワークを用い、再構成誤差を信頼度スコアとして出力する。
オートエナボーダの再構成誤差を用いてLEP予測を重み付けし、信頼度重み付き局所予測（WLS-RFフレームワーク）を生成する。
信頼度スコアを最終意思決定プロセスに統合し、遮断下での信頼性の低い局所的予測を低減する。
複数のデータセット（CK+、BU4D、DISFA）を用いて、カテゴリカルFERおよびAU検出の評価を実施する。
マルチスレーディングと効率的なアライメントアルゴリズムにより計算効率を最適化し、単一CPU上で30 fpsを超える速度を達成した。

実験結果

リサーチクエスチョン

RQ1空間的に定義された局所的顔のサブ領域（LEPs）は、顔の表情認識における部分的遮断に対して頑健性を向上させることができるか？
RQ2階層的オートエナボーダから導出される信頼度スコアは、遮断下での予測信頼性を効果的に定量化できるか？
RQ3信頼度重み付きLEPsを統合することで、カテゴリカルな表情認識およびAU検出の両方で性能が向上するか？
RQ4提案手法は、トレーニング時に見られなかった現実世界の遮断に対しても一般化可能か？合成的遮断データに依存しないか？
RQ5フレームワークの計算負荷はモデルの複雑さにどのように比例するか？また、リアルタイムの動画処理をサポートできるか？

主な発見

提案されたWLS-RFフレームワークは、複数のベンチマークで遮断に強いカテゴリカルな顔の表情認識において最先端の性能を達成した。
階層的オートエナボーダからの信頼度スコアは、特に目や口の領域といった遮断領域での信頼性の低い予測を効果的に同定した。
遮断領域（例：目遮断状況下でのAU6およびAU9）では、常に低信頼度が観測され、視覚的直感とデータ分布と整合的であった。
1000本のツリーを用いたLEPモデルでも、単一CPU上で30 fpsを超える速度で動作し、高複雑度モデルでもリアルタイム実現が可能であることを示した。
トレーニングのスケーラビリティは良好であった：8,000枚以上の画像を用いたLEP学習で約3時間、オートエナボーダのトレーニングで約12時間、50本のツリーを用いたAU検出で約1時間（標準CPU上）。
信頼度重み付きLEP表現は遮断を超えて一般化可能であり、照度変化やポーズ変化の処理にも応用可能である可能性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。