[論文レビュー] GazeFormer-MoE: Context-Aware Gaze Estimation via CLIP and MoE Transformer
GazeFormer-MoE は CLIP 主導のプロトタイプ、パッチトークン、CNN 特徴をルーティング/共有 Mixture-of-Experts で融合し、4つのベンチマークで最先端の 3D 視線推定を実現する意味論モジュレーションを持つマルチスケール Transformer を提案する。
We present a semantics modulated, multi scale Transformer for 3D gaze estimation. Our model conditions CLIP global features with learnable prototype banks (illumination, head pose, background, direction), fuses these prototype-enriched global vectors with CLIP patch tokens and high-resolution CNN tokens in a unified attention space, and replaces several FFN blocks with routed/shared Mixture of Experts to increase conditional capacity. Evaluated on MPIIFaceGaze, EYEDIAP, Gaze360 and ETH-XGaze, our model achieves new state of the art angular errors of 2.49°, 3.22°, 10.16°, and 1.44°, demonstrating up to a 64% relative improvement over previously reported results. ablations attribute gains to prototype conditioning, cross scale fusion, MoE and hyperparameter. Our code is publicly available at https://github. com/AIPMLab/Gazeformer.
研究の動機と目的
- 照明・姿勢・背景が変化しても、豊富な注釈なしでも頑健な視線推定を動機づける。
- CLIP由来の事前知識を画像トークンと統合する意味論モジュール付きのマルチスケール Transformer を提案する。
- ルーティング済み・共有 Mixture-of-Experts Transformer を導入し、 dense なパラメータ増加なしに条件付き容量を増やす。
- 4つのベンチマーク(MPIIFaceGaze、EYEDIAP、Gaze360、ETH-XGaze)で評価し、構成要素の寄与をアブレーションする。
提案手法
- 入力画像からグローバル CLIP 特徴とマルチスケールトークンを抽出する。
- グローバル特徴を、照明・頭部姿勢・背景・ラベルの学習可能なプロトタイプベースと条件付けし、文脈ごとに上位プロトタイプを選択する。
- CLIP パッチトークンと高分解能 CNN トークンを単一の Transformer エンコーダで豊かなグローバルベクトルと融合する。
- 標準の FFN ブロックをルーティング済み/共有 Mixture-of-Experts に置き換え、条件付き容量と堅牢性を向上させる。
- Angular loss と正則化項で学習し、最適化には AdamW を用いる。
実験結果
リサーチクエスチョン
- RQ1CLIP に整合した意味的プロトタイプは、外観変化に対して視線推定の頑健性を向上させるか。
- RQ2統一されたマルチスケールトークン融合は、単一スケール手法より細かな手掛かりをよりよく捉えるか。
- RQ3ルーティング/共有 MoE ブロックは、長尾の外観分布(影、極端な姿勢など)で性能を向上させるか。
- RQ4プロトタイプ条件付け、横断スケール融合、MoE コンポーネントが、ベンチマーク全体での最先端性能に及ぼす影響はどうか。
主な発見
| Methods | Pub. Year | M | E | G | Et |
|---|---|---|---|---|---|
| Gazenet | TPAMI17 | 5.76 ∘ | 6.79 ∘ | - | - |
| FullFace | CVPR17 | 4.93 ∘ | 6.53 ∘ | 14.99 ∘ | 7.38 ∘ |
| Dilated-Net | ACCV19 | 4.42 ∘ | 6.19 ∘ | 13.73 ∘ | - |
| Gaze360 | ICCV19 | 4.06 ∘ | 5.36 ∘ | 11.04 ∘ | 11.04 ∘ |
| CA-Net | AAA I 20 | 4.27 ∘ | 5.27 ∘ | 11.20 ∘ | - |
| AFF-Net | ICPR 20 | 4.92 ∘ | 6.41 ∘ | - | - |
| GazeTR-Hybrid | ICPR 22 | 4.18 ∘ | 5.44 ∘ | 11.46 ∘ | - |
| GazeTr-Pure | ICPR 22 | 4.24 ∘ | 5.72 ∘ | 13.58 ∘ | - |
| GazeCLIP | arXiv 25 | 3.50 ∘ | 4.70 ∘ | - | - |
| CLIP-DFENet | arXiv 25 | 3.71 ∘ | 4.97 ∘ | 10.54 ∘ | - |
| MCA-PGI | S. Reports 25 | 3.90 ∘ | 4.58 ∘ | 10.34 ∘ | - |
| GazeSymCAT | JCDE 25 | 4.11 ∘ | 5.13 ∘ | - | 3.28 ∘ |
| IGTGGaze | TIP 25 | 3.60 ∘ | 4.56 ∘ | 10.92 ∘ | - |
| PCNet | TIP 25 | 3.99 ∘ | 4.50 ∘ | - | 4.00 ∘ |
| Ours | - | 2.49 ∘ | 3.22 ∘ | 10.16 ∘ | 1.44 ∘ |
- 新しい最先端の角度誤差を達成: 2.49°(M)、3.22°(E)、10.16°(G)、1.44°(Et)。
- 4つのベンチマークで従来結果に対して最大で相対的に 64% の改善を示す。
- アブレーション: プロトタイプ条件付けのみでは弱く、高分解能 CNN トークンが誤差を低減させる。CLIP パッチトークンが最終的な Refinement を提供。
- MoE(ルーティング)は重要で、MoE を除くとデータセット間で性能が劣化する。
- 学習率 1e-4 が最良の収束を提供し、他の学習率は精度を低下させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。