Skip to main content
QUICK REVIEW

[논문 리뷰] GazeFormer-MoE: Context-Aware Gaze Estimation via CLIP and MoE Transformer

Xinyuan Zhao, Xianrui Chen|arXiv (Cornell University)|2026. 01. 18.
Gaze Tracking and Assistive Technology인용 수 0
한 줄 요약

GazeFormer-MoE는 CLIP 주도 프로토타입, 패치 토큰, CNN 특징을 라우팅된 공유 Mixture-of-Experts와 결합하는 의미론-조절 다중 스케일 트랜스포머를 제시하여 네 벤치마크에서 3D 시선 추정의 최첨단 성능을 달성합니다.

ABSTRACT

We present a semantics modulated, multi scale Transformer for 3D gaze estimation. Our model conditions CLIP global features with learnable prototype banks (illumination, head pose, background, direction), fuses these prototype-enriched global vectors with CLIP patch tokens and high-resolution CNN tokens in a unified attention space, and replaces several FFN blocks with routed/shared Mixture of Experts to increase conditional capacity. Evaluated on MPIIFaceGaze, EYEDIAP, Gaze360 and ETH-XGaze, our model achieves new state of the art angular errors of 2.49°, 3.22°, 10.16°, and 1.44°, demonstrating up to a 64% relative improvement over previously reported results. ablations attribute gains to prototype conditioning, cross scale fusion, MoE and hyperparameter. Our code is publicly available at https://github. com/AIPMLab/Gazeformer.

연구 동기 및 목표

  • 광원, 자세, 배경이 다양한 조건에서도 광범위한 주석 없이도 강건한 시선 추정을 가능하게 한다.
  • CLIP에서 도출된 선행 정보를 이미지 토큰과 결합하는 의미-조절식 다중 스케일 트랜스포머를 제안한다.
  • dense 파라미터 증가 없이 조건용 용량을 늘리기 위한 라우팅된 공유 Mixture-of-Experts 트랜스포머를 도입한다.
  • 네 가지 벤치마크(MPIIFaceGaze, EYEDIAP, Gaze360, ETH-XGaze)에서 평가하고 구성 요소 기여도를 소거한다.

제안 방법

  • 입력 이미지에서 글로벌 CLIP 특징과 다중 스케일 토큰을 추출한다.
  • 조명, 머리 자세, 배경, 레이블에 대한 학습가능한 프로토타입 뱅크로 글로벌 특징을 조건화하고 맥락별 상위 프로토타입을 선택한다.
  • CLIP 패치 토큰과 고해상도 CNN 토큰과 함께 강화된 글로벌 벡터를 하나의 트랜스포머 인코더에서 융합한다.
  • 표준 FFN 블록을 라우팅된/공유된 Mixture-of-Experts로 교체하여 조건적 용량과 강건성을 증가시킨다.
  • 각도 손실과 규제항으로 학습하고 최적화에는 AdamW를 사용한다.

실험 결과

연구 질문

  • RQ1CLIP에 정렬된 의미 프로토타입이 외관 변동에 걸친 시선 추정의 강건성을 향상시킬 수 있는가?
  • RQ2단일 스케일 접근법보다 통합된 다중 스케일 토큰 융합이 미세한 신호를 더 잘 포착하는가?
  • RQ3라우팅/공유 MoE 블록이 긴 꼬리 외관 분포(그림자, 극단적 자세)에서 성능을 향상시키는가?
  • RQ4프로토타입 조건화, 교차 스케일 융합, MoE 구성요소가 벤치마크 전반에서 최첨단 성능에 미치는 영향은 무엇인가?

주요 결과

방법출판 연도MEGEt
GazenetTPAMI175.76 ∘6.79 ∘--
FullFaceCVPR174.93 ∘6.53 ∘14.99 ∘7.38 ∘
Dilated-NetACCV194.42 ∘6.19 ∘13.73 ∘-
Gaze360ICCV194.06 ∘5.36 ∘11.04 ∘11.04 ∘
CA-NetAAAI 204.27 ∘5.27 ∘11.20 ∘-
AFF-NetICPR 204.92 ∘6.41 ∘--
GazeTR-HybridICPR 224.18 ∘5.44 ∘11.46 ∘-
GazeTr-PureICPR 224.24 ∘5.72 ∘13.58 ∘-
GazeCLIParXiv 253.50 ∘4.70 ∘--
CLIP-DFENetarXiv 253.71 ∘4.97 ∘10.54 ∘-
MCA-PGIS. Reports 253.90 ∘4.58 ∘10.34 ∘-
GazeSymCATJCDE 254.11 ∘5.13 ∘-3.28 ∘
IGTGGazeTIP 253.60 ∘4.56 ∘10.92 ∘-
PCNetTIP 253.99 ∘4.50 ∘-4.00 ∘
Ours-2.49 ∘3.22 ∘10.16 ∘1.44 ∘
  • 새로운 최첨단 각도 오차를 달성: 2.49° (M), 3.22° (E), 10.16° (G), 1.44° (Et).
  • 네 벤치마크에서 이전 결과 대비 최대 64% 상대적 개선을 보인다.
  • 소거 실험: 프로토타입 조건화만으로는 약하고; 고해상도 CNN 토큰이 오차를 감소시키며; CLIP 패치 토큰이 최종 보정을 제공한다.
  • MoE(라우팅)가 결정적이며, MoE를 제거하면 모든 데이터셋에서 성능이 저하된다.
  • 학습률 1e-4가 가장 우수한 수렴을 제공하고, 다른 학습률은 정확도를 감소시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.