Skip to main content
QUICK REVIEW

[論文レビュー] GazeD: Context-Aware Diffusion for Accurate 3D Gaze Estimation

Riccardo Catalini, Davide Di Nucci|arXiv (Cornell University)|Jan 19, 2026
Gaze Tracking and Assistive Technology被引用数 0
ひとこと要約

GazeD は 3D 注視方向と 3D 姿勢を単一の RGB 画像から同時推定する。注視を追加の関節としてモデル化し、2D 姿勢、周囲環境、シーン文脈を条件に拡散モデルを用いて複数の妥当な仮説を生成する。

ABSTRACT

We introduce GazeD, a new 3D gaze estimation method that jointly provides 3D gaze and human pose from a single RGB image. Leveraging the ability of diffusion models to deal with uncertainty, it generates multiple plausible 3D gaze and pose hypotheses based on the 2D context information extracted from the input image. Specifically, we condition the denoising process on the 2D pose, the surroundings of the subject, and the context of the scene. With GazeD we also introduce a novel way of representing the 3D gaze by positioning it as an additional body joint at a fixed distance from the eyes. The rationale is that the gaze is usually closely related to the pose, and thus it can benefit from being jointly denoised during the diffusion process. Evaluations across three benchmark datasets demonstrate that GazeD achieves state-of-the-art performance in 3D gaze estimation, even surpassing methods that rely on temporal information. Project details will be available at https://aimagelab.ing.unimore.it/go/gazed.

研究の動機と目的

  • unconstrained 環境におけるコンテキストおよび姿勢情報を活用して正確な 3D 注視推定を動機付ける。
  • 拡散ベースの枠組みを提案し、複数の妥当な 3D 注視と姿勢の仮説を生成する。
  • 新規の注視表現を追加の関節として導入し、注視と姿勢推定を統合する。
  • 時間情報や深度モダリティを必要とせず、複数データセットで最先端の性能を示す。

提案手法

  • 注視を額部領域に付着した追加の関節(注視関節)として表し、目から一定距離を保つ。
  • 拡散モデルを用いて 3D 注視と 3D 姿勢を共同回帰し、スケジューラ(DDIM)によるデノイズで複数の仮説を生成する。
  • 拡散過程を二つの埋め込みストリームで条件付けする:(i) Body & Surroundings が 2D 姿勢と近接文脈を Pose-to-Context および Joint-to-Joint アテンション機構で統合、(ii) Context with Objects が DETR に類似した検出器とクロスアテンションを介してシーンレベルのオブジェクト情報を組み込む。
  • HRNet と変形可能な文脈抽出を用いて多スケール特徴を抽出し、局所的な関節手掛かりとグローバルなシーン文脈の両方を捉える。
  • 複数の仮説を AVG の単純平均や ORC_G、ORC_P、ORC_J のオラクルベース選択で集約し、3D 注視の精度を向上させる。
  • 単一の RGB 画像で動作し(時系列データや深度は不要)、関節座標の統一 MSE 損失で学習する。

実験結果

リサーチクエスチョン

  • RQ1コンテキスト(周囲とシーンオブジェクト)および体の姿勢情報は、単一の RGB 画像からの 3D 注視推定を改善できるか。
  • RQ2注視を仮想的な追加関節としてモデル化し、拡散ベースの多仮説生成を用いることで、時系列情報や深度データなしで最先端の 3D 注視精度を得られるか。
  • RQ3複数の拡散仮説を結合するための異なる集約戦略が注視精度に与える影響はどの程度か。
  • RQ4提案手法は現実的で制約の少ない環境を含む多様なデータセットでどのように性能を発揮するか。

主な発見

  • GazeD は GAFA および GFIE データセットで最先端の 3D 注視推定を達成し、時系列情報や追加モダリティに依存する手法を上回る。
  • 拡散ベースの多仮説フレームワークは 2D から 3D への曖昧さを自然に扱い、複数の妥当な注視/姿勢の仮説を生み出す。
  • context-with-objects モジュールを組み込むと、Body & Surroundings 情報だけを用いる場合より注視推定が顕著に改善される。
  • 注視を追加の関節として扱うことで、単一の回帰ヘッドと統一された損失で注視と姿勢の同時最適化が可能になる。
  • 複数仮説を AVG で集約するか、より情報量の多いオラクルベース戦略を用いると、単一仮説のベースラインに近づくかそれを上回ることがあり、拡散ベースのアンサンブルの利点を示す。
  • この手法は注視以外の 3D 姿勢推定にも競争力のある強力な性能を示しており、より広い適用性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。