[논문 리뷰] Deployment-Oriented Session-wise Meta-Calibration for Landmark-Based Webcam Gaze Tracking
본 논문은 EMC-Gaze를 제안한다. 세션별 메타 보정과 네트워크 내 릿지 회귀 헤드를 갖춘 경량 지표 기반 시선 추적기로, 브라우저 친화적 환경에서 강력한 베이스라인보다 보정 가능한 시선 예측에서 더 나은 성능을 달성한다.
Practical webcam gaze tracking is constrained not only by error, but also by calibration burden, robustness to head motion and session drift, runtime footprint, and browser use. We therefore target a deployment-oriented operating point rather than the image large-backbone regime. We cast landmark-based point-of-regard estimation as session-wise adaptation: a shared geometric encoder produces embeddings that can be aligned to a new session from a small calibration set. We present Equivariant Meta-Calibrated Gaze (EMC-Gaze), a lightweight landmark-only method combining an E(3)-equivariant landmark-graph encoder, local eye geometry, binocular emphasis, auxiliary 3D gaze-direction supervision, and a closed-form ridge calibrator differentiated through episodic meta-training. To reduce pose leakage, we use a two-view canonicalization consistency loss. The deployed predictor uses only facial landmarks and fits a per-session ridge head from brief calibration. In a fixation-style interactive evaluation over 33 sessions at 100 cm, EMC-Gaze achieves 5.79 +/- 1.81 deg RMSE after 9-point calibration versus 6.68 +/- 2.34 deg for Elastic Net; the gain is larger on still-head queries (2.92 +/- 0.75 deg vs. 4.45 +/- 0.30 deg). Across three subject holdouts of 10 subjects each, EMC-Gaze retains an advantage (5.66 +/- 0.19 deg vs. 6.49 +/- 0.33 deg). On MPIIFaceGaze with short per-session calibration, the eye-focused model reaches 8.82 +/- 1.21 deg at 16-shot calibration, ties Elastic Net at 1-shot, and outperforms it from 3-shot onward. The exported eye-focused encoder has 944,423 parameters, is 4.76 MB in ONNX, and supports calibrated browser prediction in 12.58/12.58/12.90 ms per sample (mean/median/p90) in Chromium 145 with ONNX Runtime Web. These results position EMC-Gaze as a calibration-friendly operating point rather than a universal state-of-the-art claim against heavier appearance-based systems.
연구 동기 및 목표
- 브라우저 환경에서의 보정 부담, 머리 움직임에 대한 강건성, 그리고 브라우저 배포 가능성을 강조하는 웹캠 시선 추적의 배포형 운영 포인트를 제시한다.
- E(3)-등가 랜드마크-그래프 인코더를 이용한 랜드마크 기반의 세션 적응 시선 추정기를 개발한다.
- 메타 학습 내에서 닫힌 형태의 릿지 보정기를 포함시켜 학습과 배포 시 적응을 정렬한다.
- 런타임을 가볍게 유지하면서 두 뷰 표준화 일관성과 선택적 포즈 잔차로 강건성을 향상한다.
제안 방법
- 눈 영역 기하에 중점을 둔 E(3)-등가 랜드마크-그래프 인코더를 사용한다.
- 더 풍부한 국부 눈 기하, 양안 강조, 홍채 거리 불변량으로 보강한다.
- 메타 학습과 배포 모두에서 사용되는 미분 가능 닫힌 형태의 릿지 회귀 헤드를 사용해 학습한다.
- (선택) 머리 자세로부터의 2D 시선 보정을 모델링하기 위한 작은 포즈 잔차 헤드를 포함한다.
- 두 뷰 표준화 일관성과 (학습 중에) 3D 시선 방향 감독을 규제항으로 적용한다.
- 암시적 온라인 보정 및 저용량의 사후 포즈 보정 계층 같은 배포 지향 확장을 제공한다.
실험 결과
연구 질문
- RQ1브라우저 친화적 환경에서 소량의 세션당 보정을 통해 랜드마크 기반의 세션별 적응 접근 방식이 실용적인 정확도를 달성할 수 있는가?
- RQ2비등가성 또는 원시 랜드마크 기준선과 비교했을 때 E(3)-등가 랜드마크-그래프 인코더가 고정된 머리 움직임에 대한 강건성을 향상시키는가?
- RQ3메타 학습 중 닫힌 형태의 릿지 회귀기를 통합하는 것이 인코더를 실제 배포 적응과 맞추는가?
- RQ4두 뷰 표준화 일관성과 포즈 정규화가 배포 복잡성을 증가시키지 않으면서 포즈 누출을 개선하는가?
- RQ5주제 비중복 및 세션 수준 벤치마크에서 EMC-Gaze가 강력한 베이스라인에 어떻게 성능을 보이며, MPIIFaceGaze와 같은 공개 데이터셋에서의 성능은 어떠한가?
주요 결과
| 방법 | 정지(도) | 포즈(도) | 종합(도) |
|---|---|---|---|
| EMC-Gaze (ours, pursuit-enhanced) | 2.92 ± 0.75 | 6.42 ± 1.89 | 5.79 ± 1.81 |
| Elastic Net | 4.45 ± 0.30 | 7.11 ± 2.49 | 6.68 ± 2.34 |
| Ridge | 3.78 ± 2.20 | 31.07 ± 13.35 | 27.28 ± 11.27 |
| Meta GNN | 3.68 ± 2.20 | 29.72 ± 11.98 | 26.41 ± 10.18 |
- EMC-Gaze는 33-세션 인터랙티브 벤치마크에서 9-포인트 보정 시 전체 각도 RMSE가 5.79도(±1.81)로, Elastic Net(6.68도) 및 다른 베이스라인을 능가한다.
- 정지 머리 대상에서 EMC-Gaze는 2.92도(±0.75)로 Elastic Net의 4.45도보다 좋고, 포즈 유지에서는 6.42도(±1.89)로 Elastic Net의 7.11도보다 좋다.
- 3개 분할에 걸친 회고적 subject-disjoint 평가에서 EMC-Gaze는 전체 5.66도(±0.19)로 Elastic Net의 6.49도(±0.33)를 상회한다.
- MPIIFaceGaze LOPO 벤치마크에서 16샷 보정으로 EMC-Gaze는 8.82도(121 포함)까지 도달하며 해당 보정 수준에서 Elastic Net보다 2.01도 우수하다.
- 눈 초점 인코더는 파라미터 수가 944,423개이고 ONNX 추출 크기가 약 4.76 MB이며, 헤드리스 Chromium 145에서 브라우저 예측 지연은 평균/중앙값 약 12.58 ms이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.