QUICK REVIEW

[論文レビュー] Self-Learning Transformations for Improving Gaze and Head Redirection

Yufeng Zheng, Seonwook Park|arXiv (Cornell University)|Oct 23, 2020

Face recognition and analysis参考文献 58被引用数 24

ひとこと要約

本論文は、潜在ボトルネック内で自己予測された擬似条件を用いて、複数の顔面要因（注視方向、頭部姿勢、照明、色相など）を分離・制御する自己変換エンコーダデコーダアーキテクチャを提案する。この手法は、注視方向および頭部姿勢の再配置の忠実度において最先端の性能を達成し、実データを再配置画像で拡張することで、半教師ありクロスデータセット注視推定を向上させる。

ABSTRACT

Many computer vision tasks rely on labeled data. Rapid progress in generative modeling has led to the ability to synthesize photorealistic images. However, controlling specific aspects of the generation process such that the data can be used for supervision of downstream tasks remains challenging. In this paper we propose a novel generative model for images of faces, that is capable of producing high-quality images under fine-grained control over eye gaze and head orientation angles. This requires the disentangling of many appearance related factors including gaze and head orientation but also lighting, hue etc. We propose a novel architecture which learns to discover, disentangle and encode these extraneous variations in a self-learned manner. We further show that explicitly disentangling task-irrelevant factors results in more accurate modelling of gaze and head orientation. A novel evaluation scheme shows that our method improves upon the state-of-the-art in redirection accuracy and disentanglement between gaze direction and head orientation changes. Furthermore, we show that in the presence of limited amounts of real-world training data, our method allows for improvements in the downstream task of semi-supervised cross-dataset gaze estimation. Please check our project page at: https://ait.ethz.ch/projects/2020/STED-gaze/

研究の動機と目的

ペairedデータが利用できない野生の画像において、注視方向や頭部姿勢といった微細な顔面属性を制御する課題に対処すること。
自己教師ありの方法で、タスク関連要因（注視方向、頭部ポーズ）とタスク無関連要因（照明、色相など）を分離すること。
再配置の忠実度と分離の正確性を測るための原則的評価スキームを開発すること。
提案された再配置フレームワークを用いて、限られた現実世界の訓練データを拡張することで、半教師ありクロスデータセット注視推定を改善すること。

提案手法

複数の変換可能な潜在要因（それぞれが潜在埋め込みと自己予測された擬似条件から成る）を持つ自己変換エンコーダデコーダ（ST-ED）アーキテクチャを提案する。
自己予測された擬似条件を用いることで、条件付き画像変換におけるノイズや不完全なラベルへの依存度を低減する。
独立した要因間の分離を強制するための新しい制約を適用し、同時にターゲットの注視方向および頭部姿勢に対する正確な制御を維持する。
生成画像におけるターゲットの注視方向および頭部姿勢の再現精度を定量化するための再配置誤差メトリックを導入する。
余分な要因が変化した際に注視方向や頭部姿勢がどの程度変化するかを測るためのタスク分離誤差メトリックを導入する。
限られた実データを用いて半教師ありで注視方向再配置モデルを訓練し、その後、そのモデルを用いて下流の注視推定のための訓練データを拡張する。

実験結果

リサーチクエスチョン

RQ1自己教師ありの生成モデルは、ペアドデータが存在しない状況でも、注視方向、頭部姿勢、照明、色相といった複数の顔面要因を効果的に分離・制御できるか？
RQ2タスク無関連要因の明示的分離は、注視方向および頭部姿勢再配置の精度と忠実度をどのように向上させるか？
RQ3本手法で生成された再配置画像は、どの程度半教師ありクロスデータセット注視推定の性能を向上させるか？
RQ4提案された評価スキームは、既存のメトリックと比較して、再配置忠実度および分離の正確性を測る上でどのように優れているか？

主な発見

提案手法は、GazeCaptureデータセット上で定性的および定量的評価の両面で、He et al. [17] や StarGAN [21] よりも最先端の再配置精度を達成した。
次の最良ベースラインと比較して、再配置誤差を25%低減し、ターゲットの注視方向および頭部姿勢に対する優れた制御を示した。
タスク分離誤差メトリックの結果、照明や色相が変化しても注視方向および頭部姿勢の安定性が保たれていることが確認され、有効な分離が実現していることが裏付けられた。
半教師ありクロスデータセット注視推定において、本手法は4つのベンチマークデータセットで平均絶対誤差（MAE）を最大15%まで改善し、実際の訓練データを再配置画像で拡張することで達成した。
大きな頭部ポーズ、眼鏡、曇った入力といった困難なケースに対しても、良好な一般化性能を示し、写真のようにリアルな出力を生成した。
アブレーションスタディの結果、余分な要因の分離がより正確で頑健な再配置をもたらすことが確認され、コアな設計原理の有効性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。