[论文解读] Deployment-Oriented Session-wise Meta-Calibration for Landmark-Based Webcam Gaze Tracking
论文提出 EMC-Gaze,一种具会话级元校准和网络内岭回归头的轻量化地标基凝视追踪器,在浏览器友好设置中实现比强基线更好的带校准的凝视预测性能。
Practical webcam gaze tracking is constrained not only by error, but also by calibration burden, robustness to head motion and session drift, runtime footprint, and browser use. We therefore target a deployment-oriented operating point rather than the image large-backbone regime. We cast landmark-based point-of-regard estimation as session-wise adaptation: a shared geometric encoder produces embeddings that can be aligned to a new session from a small calibration set. We present Equivariant Meta-Calibrated Gaze (EMC-Gaze), a lightweight landmark-only method combining an E(3)-equivariant landmark-graph encoder, local eye geometry, binocular emphasis, auxiliary 3D gaze-direction supervision, and a closed-form ridge calibrator differentiated through episodic meta-training. To reduce pose leakage, we use a two-view canonicalization consistency loss. The deployed predictor uses only facial landmarks and fits a per-session ridge head from brief calibration. In a fixation-style interactive evaluation over 33 sessions at 100 cm, EMC-Gaze achieves 5.79 +/- 1.81 deg RMSE after 9-point calibration versus 6.68 +/- 2.34 deg for Elastic Net; the gain is larger on still-head queries (2.92 +/- 0.75 deg vs. 4.45 +/- 0.30 deg). Across three subject holdouts of 10 subjects each, EMC-Gaze retains an advantage (5.66 +/- 0.19 deg vs. 6.49 +/- 0.33 deg). On MPIIFaceGaze with short per-session calibration, the eye-focused model reaches 8.82 +/- 1.21 deg at 16-shot calibration, ties Elastic Net at 1-shot, and outperforms it from 3-shot onward. The exported eye-focused encoder has 944,423 parameters, is 4.76 MB in ONNX, and supports calibrated browser prediction in 12.58/12.58/12.90 ms per sample (mean/median/p90) in Chromium 145 with ONNX Runtime Web. These results position EMC-Gaze as a calibration-friendly operating point rather than a universal state-of-the-art claim against heavier appearance-based systems.
研究动机与目标
- 为摄像头凝视追踪部署导出一个强调校准负担、头部运动鲁棒性和浏览器部署可行性的操作点。
- 使用一个 E(3) 等变地标-图编码器开发基于地标的会话自适应凝视估计器。
- 在元训练中加入闭式岭回归校准器,使训练与部署时的自适应相一致。
- 通过两视角规范化一致性和可选的姿态残差进一步增强鲁棒性,同时保持运行时开销较小。
提出的方法
- 使用聚焦于眼区几何的 E(3) 等变地标-图编码器。
- 在局部眼部几何、双目强调以及虹膜距离不变性方面进行丰富性增强。
- 使用可微分的闭式岭回归头进行训练,该头在元训练与部署时均被使用。
- (可选) 包含一个小型姿态残差头,用于建模来自头部姿势的二维凝视校正。
- 应用两视角规范化一致性以及在训练时使用3D凝视方向监督作为正则项。
- 提供面向部署的扩展,如隐式在线校准和低容量的事后姿态校正层。
实验结果
研究问题
- RQ1在浏览器友好设置中,是否能够通过地标基、会话级适应方法,在每会话仅需少量校准的情况下实现实际可用的精度?
- RQ2相较于非等变或者原始地标基线,E(3) 等变地标-图编码器是否能提高对刚性头部运动的鲁棒性?
- RQ3在元训练中整合闭式岭回归器是否能使编码器与实际部署的适应保持一致?
- RQ4两视角规范化一致性和姿态正则化是否在不增加部署复杂度的前提下改善姿态泄露问题?
- RQ5在对比强基线的受试者独立与会话级基准,以及在像 MPIIFaceGaze 这样的公开数据集上,EMC-Gaze 的表现如何?
主要发现
| Method | Still (deg) | Pose (deg) | Overall (deg) |
|---|---|---|---|
| EMC-Gaze (ours, pursuit-enhanced) | 2.92 ± 0.75 | 6.42 ± 1.89 | 5.79 ± 1.81 |
| Elastic Net | 4.45 ± 0.30 | 7.11 ± 2.49 | 6.68 ± 2.34 |
| Ridge | 3.78 ± 2.20 | 31.07 ± 13.35 | 27.28 ± 11.27 |
| Meta GNN | 3.68 ± 2.20 | 29.72 ± 11.98 | 26.41 ± 10.18 |
- 在33场景交互基准的9点校准下,EMC-Gaze 总体角度 RMSE 为 5.79 度(±1.81),优于 Elastic Net(6.68 度)及其他基线。
- 对于静态头部目标,EMC-Gaze 为 2.92 度(±0.75),而 Elastic Net 为 4.45 度;在姿态保持情形下达到 6.42 度(±1.89),Elastic Net 为 7.11 度。
- 在回溯式的受试者独立评估的3个拆分中,EMC-Gaze 总体达到 5.66 度(±0.19),超越 Elastic Net 的 6.49 度(±0.33)。
- 在 MPIIFaceGaze LOPO 基准的 16 次校准下,EMC-Gaze 达到 8.82 度(含 121)并在该校准水平上比 Elastic Net 高出 2.01 度。
- 眼部聚焦的编码器参数量为 944,423,导出大小约 4.76 MB(ONNX),在无头 Chromium 145 环境下的浏览器预测延迟约为 12.58 ms(均值/中位数)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。