QUICK REVIEW

[論文レビュー] Photo-Realistic Monocular Gaze Redirection Using Generative Adversarial Networks

Zhe He, Adrian Spurr|arXiv (Cornell University)|Jan 1, 2019

Gaze Tracking and Assistive Technology参考文献 35被引用数 5

ひとこと要約

本論文では、視線方向を高精度に制御できる写真のようなリアルな単眼視線再配向を実現するGANベースの手法を提案する。視線推定ディスクライマ、知覚的損失、サイクル整合性損失を統合することで、従来手法に比べて画像品質と視線再配向の正確性に優れたリアルな出力を得られる。また、データ拡張に用いることで視線推定性能の向上も達成した。

ABSTRACT

Gaze redirection is the task of changing the gaze to a desired direction for a given monocular eye patch image. Many applications such as videoconferencing, films, games, and generation of training data for gaze estimation require redirecting the gaze, without distorting the appearance of the area surrounding the eye and while producing photo-realistic images. Existing methods lack the ability to generate perceptually plausible images. In this work, we present a novel method to alleviate this problem by leveraging generative adversarial training to synthesize an eye image conditioned on a target gaze direction. Our method ensures perceptual similarity and consistency of synthesized images to the real images. Furthermore, a gaze estimation loss is used to control the gaze direction accurately. To attain high-quality images, we incorporate perceptual and cycle consistency losses into our architecture. In extensive evaluations we show that the proposed method outperforms state-of-the-art approaches in terms of both image quality and redirection precision. Finally, we show that generated images can bring significant improvement for the gaze estimation task if used to augment real training data.

研究の動機と目的

特に大きな視線角度の変化に対して、視認的に妥当な視線再配向が実現されていない単眼眼画像の課題を解決すること。
視線を目標方向に再配向させても、顔の同一性やテクスチャの詳細を保持する手法を開発すること。
多様な視線角度を持つ合成トレーニングデータを生成することで、視線推定性能を向上させること。
大きな不透明領域や非現実的な結果を生じる可能性があるワープベース手法の限界を克服すること。

提案手法

生成器が実際の眼画像と目標視線方向を入力として受け取り、合成された眼画像を出力する条件付きGANアーキテクチャを採用する。
リアル画像と生成画像を区別するとともに、視線方向を推定する二重目的のディスクライマを採用し、正確性を強制する。
事前学習済みのVGG-Netを用いた知覚的損失を導入し、生成画像と正解画像の深層特徴を一致させる。
生成出力から元の入力画像を再構築するためのサイクル整合性損失を適用し、個人特徴を保持する。
生成画像内の視線方向を直接監督するための視線推定損失（Lgaze）を導入する。
L1再構成損失、知覚的損失（Lp）、サイクル整合性損失（Lrec）、視線損失（Lgaze）を組み合わせて、エンド・ツー・エンドの学習を実現する。

実験結果

リサーチクエスチョン

RQ1GANベースのアプローチは、大きな視線角度の変化に対しても、正確な視線再配向を実現する写真のようなリアルな眼画像を生成できるか？
RQ2視線推定ディスクライマを組み込むことで、標準的なGANと比較して、リアルさと方向精度の両方がどのように向上するか？
RQ3知覚的損失とサイクル整合性損失を組み込むことで、生成画像の視覚的忠実度と同一性保持の程度はどの程度向上するか？
RQ4合成された視線再配向出力は、実際のトレーニングデータを拡張するのに有効であり、視線推定性能の向上に寄与するか？
RQ5本手法は、従来のワープベース手法やGANフリーなアプローチと比較して、画像品質と再配向精度の両面で優れているか？

主な発見

本手法は、拡張データで学習した場合、コロンビア視線データセットで平均視線角度誤差6.9°を達成し、実データのみで学習した場合の14.3°と比べて顕著な改善を示した。
MPIIGazeデータセットでは、拡張データで学習した視線推定器が14.0°の誤差を示し、実データのみで学習した場合の20.2°から顕著に改善された。これは一般化性能の向上を示している。
Lgaze、Lp、Lrecのすべての損失を組み合わせた完全なモデルは、LPIPSスコア（0.4）とぼやけ具合（2.5）が最低となり、優れた知覚的品質と鮮鋭さを示した。
アブレーションスタディの結果、LrecまたはLgazeを削除すると、画像品質と視線精度に顕著な劣化が生じ、両者の重要性が確認された。
定量的指標と定性的なユーザースタディの両方において、最先端の手法を上回り、よりリアルで一貫性のある視線再配向を実現した。
本手法で生成された合成画像は、トレーニングデータの拡張に用いることで、視線推定性能の向上に寄与し、下流タスクにおける実用性を証明した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。