QUICK REVIEW

[論文レビュー] GazeFormer-MoE: Context-Aware Gaze Estimation via CLIP and MoE Transformer

Xinyuan Zhao, Xianrui Chen|arXiv (Cornell University)|Jan 18, 2026

Gaze Tracking and Assistive Technology被引用数 0

ひとこと要約

GazeFormer-MoE は CLIP 主導のプロトタイプ、パッチトークン、CNN 特徴をルーティング/共有 Mixture-of-Experts で融合し、4つのベンチマークで最先端の 3D 視線推定を実現する意味論モジュレーションを持つマルチスケール Transformer を提案する。

ABSTRACT

We present a semantics modulated, multi scale Transformer for 3D gaze estimation. Our model conditions CLIP global features with learnable prototype banks (illumination, head pose, background, direction), fuses these prototype-enriched global vectors with CLIP patch tokens and high-resolution CNN tokens in a unified attention space, and replaces several FFN blocks with routed/shared Mixture of Experts to increase conditional capacity. Evaluated on MPIIFaceGaze, EYEDIAP, Gaze360 and ETH-XGaze, our model achieves new state of the art angular errors of 2.49°, 3.22°, 10.16°, and 1.44°, demonstrating up to a 64% relative improvement over previously reported results. ablations attribute gains to prototype conditioning, cross scale fusion, MoE and hyperparameter. Our code is publicly available at https://github. com/AIPMLab/Gazeformer.

研究の動機と目的

照明・姿勢・背景が変化しても、豊富な注釈なしでも頑健な視線推定を動機づける。
CLIP由来の事前知識を画像トークンと統合する意味論モジュール付きのマルチスケール Transformer を提案する。
ルーティング済み・共有 Mixture-of-Experts Transformer を導入し、 dense なパラメータ増加なしに条件付き容量を増やす。
4つのベンチマーク（MPIIFaceGaze、EYEDIAP、Gaze360、ETH-XGaze）で評価し、構成要素の寄与をアブレーションする。

提案手法

入力画像からグローバル CLIP 特徴とマルチスケールトークンを抽出する。
グローバル特徴を、照明・頭部姿勢・背景・ラベルの学習可能なプロトタイプベースと条件付けし、文脈ごとに上位プロトタイプを選択する。
CLIP パッチトークンと高分解能 CNN トークンを単一の Transformer エンコーダで豊かなグローバルベクトルと融合する。
標準の FFN ブロックをルーティング済み/共有 Mixture-of-Experts に置き換え、条件付き容量と堅牢性を向上させる。
Angular loss と正則化項で学習し、最適化には AdamW を用いる。

実験結果

リサーチクエスチョン

RQ1CLIP に整合した意味的プロトタイプは、外観変化に対して視線推定の頑健性を向上させるか。
RQ2統一されたマルチスケールトークン融合は、単一スケール手法より細かな手掛かりをよりよく捉えるか。
RQ3ルーティング/共有 MoE ブロックは、長尾の外観分布（影、極端な姿勢など）で性能を向上させるか。
RQ4プロトタイプ条件付け、横断スケール融合、MoE コンポーネントが、ベンチマーク全体での最先端性能に及ぼす影響はどうか。

主な発見

Methods	Pub. Year	M	E	G	Et
Gazenet	TPAMI17	5.76 ∘	6.79 ∘	-	-
FullFace	CVPR17	4.93 ∘	6.53 ∘	14.99 ∘	7.38 ∘
Dilated-Net	ACCV19	4.42 ∘	6.19 ∘	13.73 ∘	-
Gaze360	ICCV19	4.06 ∘	5.36 ∘	11.04 ∘	11.04 ∘
CA-Net	AAA I 20	4.27 ∘	5.27 ∘	11.20 ∘	-
AFF-Net	ICPR 20	4.92 ∘	6.41 ∘	-	-
GazeTR-Hybrid	ICPR 22	4.18 ∘	5.44 ∘	11.46 ∘	-
GazeTr-Pure	ICPR 22	4.24 ∘	5.72 ∘	13.58 ∘	-
GazeCLIP	arXiv 25	3.50 ∘	4.70 ∘	-	-
CLIP-DFENet	arXiv 25	3.71 ∘	4.97 ∘	10.54 ∘	-
MCA-PGI	S. Reports 25	3.90 ∘	4.58 ∘	10.34 ∘	-
GazeSymCAT	JCDE 25	4.11 ∘	5.13 ∘	-	3.28 ∘
IGTGGaze	TIP 25	3.60 ∘	4.56 ∘	10.92 ∘	-
PCNet	TIP 25	3.99 ∘	4.50 ∘	-	4.00 ∘
Ours	-	2.49 ∘	3.22 ∘	10.16 ∘	1.44 ∘

新しい最先端の角度誤差を達成: 2.49°（M）、3.22°（E）、10.16°（G）、1.44°（Et）。
4つのベンチマークで従来結果に対して最大で相対的に 64% の改善を示す。
アブレーション: プロトタイプ条件付けのみでは弱く、高分解能 CNN トークンが誤差を低減させる。CLIP パッチトークンが最終的な Refinement を提供。
MoE（ルーティング）は重要で、MoE を除くとデータセット間で性能が劣化する。
学習率 1e-4 が最良の収束を提供し、他の学習率は精度を低下させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。