QUICK REVIEW

[논문 리뷰] GazeFormer-MoE: Context-Aware Gaze Estimation via CLIP and MoE Transformer

Xinyuan Zhao, Xianrui Chen|arXiv (Cornell University)|2026. 01. 18.

Gaze Tracking and Assistive Technology인용 수 0

한 줄 요약

GazeFormer-MoE는 CLIP 주도 프로토타입, 패치 토큰, CNN 특징을 라우팅된 공유 Mixture-of-Experts와 결합하는 의미론-조절 다중 스케일 트랜스포머를 제시하여 네 벤치마크에서 3D 시선 추정의 최첨단 성능을 달성합니다.

ABSTRACT

We present a semantics modulated, multi scale Transformer for 3D gaze estimation. Our model conditions CLIP global features with learnable prototype banks (illumination, head pose, background, direction), fuses these prototype-enriched global vectors with CLIP patch tokens and high-resolution CNN tokens in a unified attention space, and replaces several FFN blocks with routed/shared Mixture of Experts to increase conditional capacity. Evaluated on MPIIFaceGaze, EYEDIAP, Gaze360 and ETH-XGaze, our model achieves new state of the art angular errors of 2.49°, 3.22°, 10.16°, and 1.44°, demonstrating up to a 64% relative improvement over previously reported results. ablations attribute gains to prototype conditioning, cross scale fusion, MoE and hyperparameter. Our code is publicly available at https://github. com/AIPMLab/Gazeformer.

연구 동기 및 목표

광원, 자세, 배경이 다양한 조건에서도 광범위한 주석 없이도 강건한 시선 추정을 가능하게 한다.
CLIP에서 도출된 선행 정보를 이미지 토큰과 결합하는 의미-조절식 다중 스케일 트랜스포머를 제안한다.
dense 파라미터 증가 없이 조건용 용량을 늘리기 위한 라우팅된 공유 Mixture-of-Experts 트랜스포머를 도입한다.
네 가지 벤치마크(MPIIFaceGaze, EYEDIAP, Gaze360, ETH-XGaze)에서 평가하고 구성 요소 기여도를 소거한다.

제안 방법

입력 이미지에서 글로벌 CLIP 특징과 다중 스케일 토큰을 추출한다.
조명, 머리 자세, 배경, 레이블에 대한 학습가능한 프로토타입 뱅크로 글로벌 특징을 조건화하고 맥락별 상위 프로토타입을 선택한다.
CLIP 패치 토큰과 고해상도 CNN 토큰과 함께 강화된 글로벌 벡터를 하나의 트랜스포머 인코더에서 융합한다.
표준 FFN 블록을 라우팅된/공유된 Mixture-of-Experts로 교체하여 조건적 용량과 강건성을 증가시킨다.
각도 손실과 규제항으로 학습하고 최적화에는 AdamW를 사용한다.

실험 결과

연구 질문

RQ1CLIP에 정렬된 의미 프로토타입이 외관 변동에 걸친 시선 추정의 강건성을 향상시킬 수 있는가?
RQ2단일 스케일 접근법보다 통합된 다중 스케일 토큰 융합이 미세한 신호를 더 잘 포착하는가?
RQ3라우팅/공유 MoE 블록이 긴 꼬리 외관 분포(그림자, 극단적 자세)에서 성능을 향상시키는가?
RQ4프로토타입 조건화, 교차 스케일 융합, MoE 구성요소가 벤치마크 전반에서 최첨단 성능에 미치는 영향은 무엇인가?

주요 결과

방법	출판 연도	M	E	G	Et
Gazenet	TPAMI17	5.76 ∘	6.79 ∘	-	-
FullFace	CVPR17	4.93 ∘	6.53 ∘	14.99 ∘	7.38 ∘
Dilated-Net	ACCV19	4.42 ∘	6.19 ∘	13.73 ∘	-
Gaze360	ICCV19	4.06 ∘	5.36 ∘	11.04 ∘	11.04 ∘
CA-Net	AAAI 20	4.27 ∘	5.27 ∘	11.20 ∘	-
AFF-Net	ICPR 20	4.92 ∘	6.41 ∘	-	-
GazeTR-Hybrid	ICPR 22	4.18 ∘	5.44 ∘	11.46 ∘	-
GazeTr-Pure	ICPR 22	4.24 ∘	5.72 ∘	13.58 ∘	-
GazeCLIP	arXiv 25	3.50 ∘	4.70 ∘	-	-
CLIP-DFENet	arXiv 25	3.71 ∘	4.97 ∘	10.54 ∘	-
MCA-PGI	S. Reports 25	3.90 ∘	4.58 ∘	10.34 ∘	-
GazeSymCAT	JCDE 25	4.11 ∘	5.13 ∘	-	3.28 ∘
IGTGGaze	TIP 25	3.60 ∘	4.56 ∘	10.92 ∘	-
PCNet	TIP 25	3.99 ∘	4.50 ∘	-	4.00 ∘
Ours	-	2.49 ∘	3.22 ∘	10.16 ∘	1.44 ∘

새로운 최첨단 각도 오차를 달성: 2.49° (M), 3.22° (E), 10.16° (G), 1.44° (Et).
네 벤치마크에서 이전 결과 대비 최대 64% 상대적 개선을 보인다.
소거 실험: 프로토타입 조건화만으로는 약하고; 고해상도 CNN 토큰이 오차를 감소시키며; CLIP 패치 토큰이 최종 보정을 제공한다.
MoE(라우팅)가 결정적이며, MoE를 제거하면 모든 데이터셋에서 성능이 저하된다.
학습률 1e-4가 가장 우수한 수렴을 제공하고, 다른 학습률은 정확도를 감소시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.