QUICK REVIEW

[論文レビュー] MGGR: MultiModal-Guided Gaze Redirection with Coarse-to-Fine Learning

Jingjing Chen, Jichao Zhang|arXiv (Cornell University)|Apr 7, 2020

Gaze Tracking and Assistive Technology参考文献 14被引用数 2

ひとこと要約

MGGRは、目のマップとターゲット角度を活用して、画像品質と再配置精度を向上させる、粗いから細かい段階への注視再配置フレームワークを提案する。フローベースの粗い変換と、敵対的で条件付きの残差学習を組み合わせた細かいブランチを採用し、視線マップのガイダンスを統合することで、ベンチマークデータセットで最先端のパフォーマンスを達成した。

ABSTRACT

Gaze redirection aims at manipulating a given eye gaze to a desirable direction according to a reference angle and it can be applied to many real life scenarios, such as video-conferencing or taking groups. However, the previous works suffer from two limitations: (1) low-quality generation and (2) low redirection precision. To this end, we propose an innovative MultiModal-Guided Gaze Redirection~(MGGR) framework that fully exploits eye-map images and target angles to adjust a given eye appearance through a designed coarse-to-fine learning. Our contribution is combining the flow-learning and adversarial learning for coarse-to-fine generation. More specifically, the role of the proposed coarse branch with flow field is to rapidly learn the spatial transformation for attaining the warped result with the desired gaze. The proposed fine-grained branch consists of a generator network with conditional residual image learning and a multi-task discriminator to reduce the gap between the warped image and the ground-truth image for recovering the finer texture details. Moreover, we propose leveraging the gazemap for desired angles as an extra guide to further improve the precision of gaze redirection. Extensive experiments on a benchmark dataset show that the proposed method outperforms the state-of-the-art methods in terms of image quality and redirection precision. Further evaluations demonstrate the effectiveness of the proposed coarse-to-fine and gazemap modules.

研究の動機と目的

既存の注視再配置手法における低品質な画像と低い再配置精度という限界を解消すること。
目のマップ画像とターゲット視線角度からのマルチモーダルガイダンスを統合して、注視再配置を改善すること。
グローバルな空間変換とローカルなテクスチャディテール回復の両方を向上させる、粗いから細かい学習戦略を開発すること。
生成中の画像品質向上を図るため、視線マップを補助的ガイダンスとして活用し、視線方向の正確さを精緻化すること。
最先端の手法と比較して、視覚的忠実度と視線整合性の両面で優れたパフォーマンスを達成すること。

提案手法

入力された目の画像をターゲット視線方向に素早く空間変換するための粗いブランチを導入し、流れ場を用いる。
変形された目の画像に高精細なテクスチャディテールを回復させるために、条件付き残差生成器を備えた細分化ブランチを設計する。
生成画像と正解画像の間の知覚的および敵対的ギャップを最小化するため、マルチタスクディスクライマーを採用する。
望ましい視線方向のヒートマップである視線マップを、生成器の追加的条件入力として統合し、精度向上を図る。
フローベースの粗い学習と敵対的で微細なチューニングを統合したエンドツーエンドで学習可能なフレームワークを構築し、共同最適化を実現する。
まず粗いブランチを最適化し、その後敵対的損失を用いて細分化ブランチと同時に学習するマルチステージトレーニング戦略を採用する。

実験結果

リサーチクエスチョン

RQ1粗いから細かい学習戦略は、単一段階手法と比較して、注視再配置の効率性と品質の両面で向上をもたらすか？
RQ2視線マップを補助的ガイダンスとして統合することで、注視再配置の精度にどのような影響を与えるか？
RQ3フローベース変換と敵対的で残差学習を組み合わせることで、テクスチャディテール回復がどの程度向上するか？
RQ4提案されたマルチモーダルガイダンス（目のマップ＋ターゲット角度）は、画像品質と視線正確性の向上に顕著な改善をもたらすか？
RQ5定量的指標と視覚的忠実度の観点から、MGGRは最先端の注視再配置モデルと比較してどの程度優れているか？

主な発見

MGGRはベンチマークデータセットにおいて、最先端の注視再配置手法と比較して、画像品質と視線再配置精度の両面で優れた性能を示した。
粗いから細かい学習戦略により、視線方向の整合性が著しく向上し、同時に現実的な目のテクスチャが保持された。
視線マップをガイダンスモダリティとして統合することで、特に挑戦的な視線角度において再配置精度に顕著な向上が得られた。
マルチタスクディスクライマーは、生成画像と実際の画像の分布ギャップを効果的に低減し、視覚的リアリズムを向上させた。
アブレーションスタディにより、フローベースの粗いブランチと敵対的で細分化されたブランチの両方が、性能向上に有意義に寄与することが確認された。
LPIPS、FID、視線誤差といった定量的指標において、提案フレームワークが優れた結果を達成し、強固さと一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。