[論文レビュー] Rendering of Eyes for Eye-Shape Registration and Gaze Estimation
本稿では、高解像度の頭部スキャンから得られた動的で制御可能な3D目のモデルを用いて、写真のようにリアルな、完全にアノテーションが付加された目の領域画像を生成する学習手法SynthesEyesを提案する。多様な頭部ポーズ、視線方向、そして現実的な照明をシミュレートすることで、眼の形状登録およびクロスデータセット視線推定において最先端の手法を上回る高品質なトレーニングデータを生成し、外見と幾何学的形状の両方を正確に制御可能な合成データの有効性を示している。
Images of the eye are key in several computer vision problems, such as shape registration and gaze estimation. Recent large-scale supervised methods for these problems require time-consuming data collection and manual annotation, which can be unreliable. We propose synthesizing perfectly labelled photo-realistic training data in a fraction of the time. We used computer graphics techniques to build a collection of dynamic eye-region models from head scan geometry. These were randomly posed to synthesize close-up eye images for a wide range of head poses, gaze directions, and illumination conditions. We used our model's controllability to verify the importance of realistic illumination and shape variations in eye-region training data. Finally, we demonstrate the benefits of our synthesized training data (SynthesEyes) by out-performing state-of-the-art methods for eye-shape registration as well as cross-dataset appearance-based gaze estimation in the wild.
研究の動機と目的
- コンピュータビジョンタスクのための、大規模かつ高品質な眼画像データセットの収集とアノテーションの課題に対処すること。
- 既存の合成データには現実的な照明、素材特性、幾何的詳細が欠けているという制限を克服すること。
- 完全に制御可能な写真のようにリアルな合成データを用いて、頑健な眼の形状登録および外見ベースの視線推定用モデルのトレーニングを可能にすること。
- クロスデータセット評価設定において、合成データが現実世界のデータと同等またはそれ以上の性能を達成できることを示すこと。
提案手法
- 密度の高い3D頭部スキャン(1.4Mポリゴン)から得た高精細な3D目の領域モデルを、アニメーションに適した9,005ポリゴンに再トポロジー化した。
- 高解像度のディスplaceメントマップを用いて微細な皮膚の表面ディテールを復元し、虹彩およびまぶたの3Dランドマークを手動でアノテーションした。
- 画像ベースの照明(IBL)を用いて、多様な環境や照明条件における現実的な照明変動をシミュレートした。
- 頭部ポーズ、視線方向、照明設定をランダムにサンプリングし、大規模かつ多様なトレーニングデータセット(SynthesEyes)を生成した。
- モデルの制御可能性を活用して、現実的な照明や形状の変動がモデル性能に与える影響を検証した。
- SynthesEyes上で2つの別個のモデルをトレーニングした:形状登録用の可変型眼領域モデルと、外見ベースの視線推定用のCNN。
実験結果
リサーチクエスチョン
- RQ1正確な真値アノテーションが付加された、写真のようにリアルな合成眼画像は、実世界データと比較して眼の形状登録の性能向上に寄与するか?
- RQ2合成トレーニングデータに現実的な照明変動が組み込まれることで、視線推定モデルの一般化性能がどの程度向上するか?
- RQ3クロスデータセット視線推定のシナリオにおいて、合成で生成されたデータでトレーニングしたモデルと実世界データセットでトレーニングしたモデルの性能はどのように比較されるか?
- RQ4特定の頭部ポーズと視線範囲に焦点を当てたターゲットドリブンなデータ合成は、ノートパソコンベースの視線インタラクションのような実世界応用の性能向上に寄与するか?
- RQ5個々の人物における眼の形状や肌色の違いが、合成データでトレーニングされた外見ベースの視線推定モデルの一般化性能にどのように影響を与えるか?
主な発見
- SynthesEyesデータセットは、MPIIGazeデータセットにおけるクロスデータセット視線推定で平均誤差13.91°を達成し、実世界のUT Multiviewデータセットでトレーニングされたモデル(13.55°)と同等の性能を示した。
- ノートパソコンベースの視線インタラクションを想定したターゲットドリブンな合成(10°ポーズ、20°視線変動)により、平均誤差は7.90°に低下し、UTデータセットを大幅に上回った(p < 0.0001)。
- SynthesEyesで事前学習したCNNに実世界のUTデータで微調整することで、誤差は11.12°(非ターゲット)および7.90°(ターゲット)に低下し、最先端の結果(13.91°)を上回った。
- 肌色や目の形状が一致しないモデルでは一般化性能が著しく低下し、一部のモデル(例:f3, m2, m4)ではMPIIGazeの参加者に対して顕著に高い誤差を示した。
- データセット内とクロスデータセットでのトレーニングの性能差は依然として存在しており、合成データのみでは現実世界のばらつきを完全に捉えることはできない可能性がある。
- 本研究では、現実的な照明と幾何的変動がモデルの頑健な一般化に不可欠であることが確認され、高い制御性を持つ合成データが、複雑なビジョンタスクを効果的に支援できることを示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。