Skip to main content
QUICK REVIEW

[論文レビュー] GazeFormer-MoE: Context-Aware Gaze Estimation via CLIP and MoE Transformer

Xinyuan Zhao, Xianrui Chen|arXiv (Cornell University)|Jan 18, 2026
Gaze Tracking and Assistive Technology被引用数 0
ひとこと要約

GazeFormer-MoE は CLIP 主導のプロトタイプ、パッチトークン、CNN 特徴をルーティング/共有 Mixture-of-Experts で融合し、4つのベンチマークで最先端の 3D 視線推定を実現する意味論モジュレーションを持つマルチスケール Transformer を提案する。

ABSTRACT

We present a semantics modulated, multi scale Transformer for 3D gaze estimation. Our model conditions CLIP global features with learnable prototype banks (illumination, head pose, background, direction), fuses these prototype-enriched global vectors with CLIP patch tokens and high-resolution CNN tokens in a unified attention space, and replaces several FFN blocks with routed/shared Mixture of Experts to increase conditional capacity. Evaluated on MPIIFaceGaze, EYEDIAP, Gaze360 and ETH-XGaze, our model achieves new state of the art angular errors of 2.49°, 3.22°, 10.16°, and 1.44°, demonstrating up to a 64% relative improvement over previously reported results. ablations attribute gains to prototype conditioning, cross scale fusion, MoE and hyperparameter. Our code is publicly available at https://github. com/AIPMLab/Gazeformer.

研究の動機と目的

  • 照明・姿勢・背景が変化しても、豊富な注釈なしでも頑健な視線推定を動機づける。
  • CLIP由来の事前知識を画像トークンと統合する意味論モジュール付きのマルチスケール Transformer を提案する。
  • ルーティング済み・共有 Mixture-of-Experts Transformer を導入し、 dense なパラメータ増加なしに条件付き容量を増やす。
  • 4つのベンチマーク(MPIIFaceGaze、EYEDIAP、Gaze360、ETH-XGaze)で評価し、構成要素の寄与をアブレーションする。

提案手法

  • 入力画像からグローバル CLIP 特徴とマルチスケールトークンを抽出する。
  • グローバル特徴を、照明・頭部姿勢・背景・ラベルの学習可能なプロトタイプベースと条件付けし、文脈ごとに上位プロトタイプを選択する。
  • CLIP パッチトークンと高分解能 CNN トークンを単一の Transformer エンコーダで豊かなグローバルベクトルと融合する。
  • 標準の FFN ブロックをルーティング済み/共有 Mixture-of-Experts に置き換え、条件付き容量と堅牢性を向上させる。
  • Angular loss と正則化項で学習し、最適化には AdamW を用いる。

実験結果

リサーチクエスチョン

  • RQ1CLIP に整合した意味的プロトタイプは、外観変化に対して視線推定の頑健性を向上させるか。
  • RQ2統一されたマルチスケールトークン融合は、単一スケール手法より細かな手掛かりをよりよく捉えるか。
  • RQ3ルーティング/共有 MoE ブロックは、長尾の外観分布(影、極端な姿勢など)で性能を向上させるか。
  • RQ4プロトタイプ条件付け、横断スケール融合、MoE コンポーネントが、ベンチマーク全体での最先端性能に及ぼす影響はどうか。

主な発見

MethodsPub. YearMEGEt
GazenetTPAMI175.76 ∘6.79 ∘--
FullFaceCVPR174.93 ∘6.53 ∘14.99 ∘7.38 ∘
Dilated-NetACCV194.42 ∘6.19 ∘13.73 ∘-
Gaze360ICCV194.06 ∘5.36 ∘11.04 ∘11.04 ∘
CA-NetAAA I 204.27 ∘5.27 ∘11.20 ∘-
AFF-NetICPR 204.92 ∘6.41 ∘--
GazeTR-HybridICPR 224.18 ∘5.44 ∘11.46 ∘-
GazeTr-PureICPR 224.24 ∘5.72 ∘13.58 ∘-
GazeCLIParXiv 253.50 ∘4.70 ∘--
CLIP-DFENetarXiv 253.71 ∘4.97 ∘10.54 ∘-
MCA-PGIS. Reports 253.90 ∘4.58 ∘10.34 ∘-
GazeSymCATJCDE 254.11 ∘5.13 ∘-3.28 ∘
IGTGGazeTIP 253.60 ∘4.56 ∘10.92 ∘-
PCNetTIP 253.99 ∘4.50 ∘-4.00 ∘
Ours-2.49 ∘3.22 ∘10.16 ∘1.44 ∘
  • 新しい最先端の角度誤差を達成: 2.49°(M)、3.22°(E)、10.16°(G)、1.44°(Et)。
  • 4つのベンチマークで従来結果に対して最大で相対的に 64% の改善を示す。
  • アブレーション: プロトタイプ条件付けのみでは弱く、高分解能 CNN トークンが誤差を低減させる。CLIP パッチトークンが最終的な Refinement を提供。
  • MoE(ルーティング)は重要で、MoE を除くとデータセット間で性能が劣化する。
  • 学習率 1e-4 が最良の収束を提供し、他の学習率は精度を低下させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。