[논문 리뷰] GazeFormer-MoE: Context-Aware Gaze Estimation via CLIP and MoE Transformer
GazeFormer-MoE는 CLIP 주도 프로토타입, 패치 토큰, CNN 특징을 라우팅된 공유 Mixture-of-Experts와 결합하는 의미론-조절 다중 스케일 트랜스포머를 제시하여 네 벤치마크에서 3D 시선 추정의 최첨단 성능을 달성합니다.
We present a semantics modulated, multi scale Transformer for 3D gaze estimation. Our model conditions CLIP global features with learnable prototype banks (illumination, head pose, background, direction), fuses these prototype-enriched global vectors with CLIP patch tokens and high-resolution CNN tokens in a unified attention space, and replaces several FFN blocks with routed/shared Mixture of Experts to increase conditional capacity. Evaluated on MPIIFaceGaze, EYEDIAP, Gaze360 and ETH-XGaze, our model achieves new state of the art angular errors of 2.49°, 3.22°, 10.16°, and 1.44°, demonstrating up to a 64% relative improvement over previously reported results. ablations attribute gains to prototype conditioning, cross scale fusion, MoE and hyperparameter. Our code is publicly available at https://github. com/AIPMLab/Gazeformer.
연구 동기 및 목표
- 광원, 자세, 배경이 다양한 조건에서도 광범위한 주석 없이도 강건한 시선 추정을 가능하게 한다.
- CLIP에서 도출된 선행 정보를 이미지 토큰과 결합하는 의미-조절식 다중 스케일 트랜스포머를 제안한다.
- dense 파라미터 증가 없이 조건용 용량을 늘리기 위한 라우팅된 공유 Mixture-of-Experts 트랜스포머를 도입한다.
- 네 가지 벤치마크(MPIIFaceGaze, EYEDIAP, Gaze360, ETH-XGaze)에서 평가하고 구성 요소 기여도를 소거한다.
제안 방법
- 입력 이미지에서 글로벌 CLIP 특징과 다중 스케일 토큰을 추출한다.
- 조명, 머리 자세, 배경, 레이블에 대한 학습가능한 프로토타입 뱅크로 글로벌 특징을 조건화하고 맥락별 상위 프로토타입을 선택한다.
- CLIP 패치 토큰과 고해상도 CNN 토큰과 함께 강화된 글로벌 벡터를 하나의 트랜스포머 인코더에서 융합한다.
- 표준 FFN 블록을 라우팅된/공유된 Mixture-of-Experts로 교체하여 조건적 용량과 강건성을 증가시킨다.
- 각도 손실과 규제항으로 학습하고 최적화에는 AdamW를 사용한다.
실험 결과
연구 질문
- RQ1CLIP에 정렬된 의미 프로토타입이 외관 변동에 걸친 시선 추정의 강건성을 향상시킬 수 있는가?
- RQ2단일 스케일 접근법보다 통합된 다중 스케일 토큰 융합이 미세한 신호를 더 잘 포착하는가?
- RQ3라우팅/공유 MoE 블록이 긴 꼬리 외관 분포(그림자, 극단적 자세)에서 성능을 향상시키는가?
- RQ4프로토타입 조건화, 교차 스케일 융합, MoE 구성요소가 벤치마크 전반에서 최첨단 성능에 미치는 영향은 무엇인가?
주요 결과
| 방법 | 출판 연도 | M | E | G | Et |
|---|---|---|---|---|---|
| Gazenet | TPAMI17 | 5.76 ∘ | 6.79 ∘ | - | - |
| FullFace | CVPR17 | 4.93 ∘ | 6.53 ∘ | 14.99 ∘ | 7.38 ∘ |
| Dilated-Net | ACCV19 | 4.42 ∘ | 6.19 ∘ | 13.73 ∘ | - |
| Gaze360 | ICCV19 | 4.06 ∘ | 5.36 ∘ | 11.04 ∘ | 11.04 ∘ |
| CA-Net | AAAI 20 | 4.27 ∘ | 5.27 ∘ | 11.20 ∘ | - |
| AFF-Net | ICPR 20 | 4.92 ∘ | 6.41 ∘ | - | - |
| GazeTR-Hybrid | ICPR 22 | 4.18 ∘ | 5.44 ∘ | 11.46 ∘ | - |
| GazeTr-Pure | ICPR 22 | 4.24 ∘ | 5.72 ∘ | 13.58 ∘ | - |
| GazeCLIP | arXiv 25 | 3.50 ∘ | 4.70 ∘ | - | - |
| CLIP-DFENet | arXiv 25 | 3.71 ∘ | 4.97 ∘ | 10.54 ∘ | - |
| MCA-PGI | S. Reports 25 | 3.90 ∘ | 4.58 ∘ | 10.34 ∘ | - |
| GazeSymCAT | JCDE 25 | 4.11 ∘ | 5.13 ∘ | - | 3.28 ∘ |
| IGTGGaze | TIP 25 | 3.60 ∘ | 4.56 ∘ | 10.92 ∘ | - |
| PCNet | TIP 25 | 3.99 ∘ | 4.50 ∘ | - | 4.00 ∘ |
| Ours | - | 2.49 ∘ | 3.22 ∘ | 10.16 ∘ | 1.44 ∘ |
- 새로운 최첨단 각도 오차를 달성: 2.49° (M), 3.22° (E), 10.16° (G), 1.44° (Et).
- 네 벤치마크에서 이전 결과 대비 최대 64% 상대적 개선을 보인다.
- 소거 실험: 프로토타입 조건화만으로는 약하고; 고해상도 CNN 토큰이 오차를 감소시키며; CLIP 패치 토큰이 최종 보정을 제공한다.
- MoE(라우팅)가 결정적이며, MoE를 제거하면 모든 데이터셋에서 성능이 저하된다.
- 학습률 1e-4가 가장 우수한 수렴을 제공하고, 다른 학습률은 정확도를 감소시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.