[論文レビュー] Deep generative-contrastive networks for facial expression recognition
本論文はGCNetを提案する。生成的参照画像、コントラスト表現、識別学習を組み合わせた単一画像の表情認識フレームワークで、CK+、MMI、Oulu-CASIAデータセットで最先端の結果を達成する。
As the expressive depth of an emotional face differs with individuals or expressions, recognizing an expression using a single facial image at a moment is difficult. A relative expression of a query face compared to a reference face might alleviate this difficulty. In this paper, we propose to utilize contrastive representation that embeds a distinctive expressive factor for a discriminative purpose. The contrastive representation is calculated at the embedding layer of deep networks by comparing a given (query) image with the reference image. We attempt to utilize a generative reference image that is estimated based on the given image. Consequently, we deploy deep neural networks that embed a combination of a generative model, a contrastive model, and a discriminative model with an end-to-end training manner. In our proposed networks, we attempt to disentangle a facial expressive factor in two steps including learning of a generator network and a contrastive encoder network. We conducted extensive experiments on publicly available face expression databases (CK+, MMI, Oulu-CASIA, and in-the-wild databases) that have been widely adopted in the recent literatures. The proposed method outperforms the known state-of-the art methods in terms of the recognition accuracy.
研究の動機と目的
- 表情が単一画像で曖昧な場合でも、同一アイデンティティからの参照(生成)画像を活用して頑健な表情認識を動機づける。
- 入力画像と参照画像間の顕著な表現変化を捉える対照的潜在表現を開発する。
- エンドツーエンドのネットワークで生成・対照・識別学習を統合し、認識性能を向上させる。
- 生成的参照と対照学習を用いた単一画像ベースのアプローチが、いくつかの多画像または時系列手法よりも優れていることを示す。
提案手法
- GCNetは入力から参照画像を生成することと、対照的潜在表現を抽出すること、分類をエンドツーエンドで実行することを共同で学習する方法を提案する。
- 対照表現のデルタを、入力Xと生成参照Xhat_rの正規化された潜在エンコードの距離として定義する:delta = d(En(X), En(Xhat_r)).
- EnとDeからなるジェネレータGを用い、Xから参照画像Xhat_rを推定し、X ≈ Xhat_r + epsilonをモデル化する。
- 複数の損失で訓練する:表情の識別クロスエントロピー、Xhat_rとXr間の生成的L2損失、潜在空間での対照損失、入力デコーダと参照デコーダの再構成損失。
- 統合目的関数L = LCls + lambda_G LGen + lambda_S LContr + LReconを最適化し、識別・生成・対照・再構成の目的をバランスさせる。
- 二段階の分離戦略を採用する:まず表現関連の変動を除去するために参照を生成し、次に識別的特徴のための対照エンコーダを学習する。
実験結果
リサーチクエスチョン
- RQ1生成的参照画像は表現認識の識別性能を改善するか?
- RQ2生成的参照と対照的距離学習を統合して、表現の識別的潜在表現を作成できるか?
- RQ3生成と対照学習を組み合わせた単一画像アプローチは、多画像または時系列手法を上回ることができるか?
- RQ4再構成損失は対照表現の品質と分類精度にどのような影響を与えるか?
主な発見
| 手法 | 精度 (%) |
|---|---|
| GCNet_S0R0 | 97.08 |
| GCNet_S1R0 | 97.83 |
| GCNet_S0R1 | 97.53 |
| GCNet_S1R1 | 97.93 |
| CNN (baseline) | 96.94 |
| DTAGN-Joint | 97.25 |
| STM-ExpLet | 94.19 |
| 3D-CNN | 85.9 |
| 3D-CNN-DAP | 92.4 |
| LBP-TOP | 88.99 |
| HOG 3D | 91.44 |
| MSR | 91.4 |
| TMS (4-fold) | 91.89 |
| traj. on S+(2; n) | 96.87 |
- 対照損失および/または再構成損失を用いたGCNetの派生は、CK+における単一画像のベースラインやいくつかの多画像アプローチを含む、いくつかの最先端手法を上回る。
- S1R1バリアント(対照+再構成)は、提案モデルの中でCK+の精度の中で最高の報告を達成。
- CK+(7表現と8表現)、MMI、Oulu-CASIA VIS全体で、GCNetファミリは手作り特徴、CNNベース、及び一部の映像ベース手法と比較して競争力がある、または優位である。
- 可視化(t-SNE)は、GCNet特徴の方がCNNベースの基線よりも表現クラスのクラスタリングが良好であり、より識別的な潜在表現を支持する。
- 生成的成分をVAEやGANで置換した実験は、異なる生成バックボーンとフレームワークの互換性を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。