[論文レビュー] Deployment-Oriented Session-wise Meta-Calibration for Landmark-Based Webcam Gaze Tracking
本論文は EMC-Gaze を提案する。セッションごとのメタ較正とネットワーク内リッジ回帰ヘッドを備えた軽量なランドマークベース視線追跡器で、強力なベースラインよりもブラウザ対応設定での較正可能な視線予測性能を向上させる。
Practical webcam gaze tracking is constrained not only by error, but also by calibration burden, robustness to head motion and session drift, runtime footprint, and browser use. We therefore target a deployment-oriented operating point rather than the image large-backbone regime. We cast landmark-based point-of-regard estimation as session-wise adaptation: a shared geometric encoder produces embeddings that can be aligned to a new session from a small calibration set. We present Equivariant Meta-Calibrated Gaze (EMC-Gaze), a lightweight landmark-only method combining an E(3)-equivariant landmark-graph encoder, local eye geometry, binocular emphasis, auxiliary 3D gaze-direction supervision, and a closed-form ridge calibrator differentiated through episodic meta-training. To reduce pose leakage, we use a two-view canonicalization consistency loss. The deployed predictor uses only facial landmarks and fits a per-session ridge head from brief calibration. In a fixation-style interactive evaluation over 33 sessions at 100 cm, EMC-Gaze achieves 5.79 +/- 1.81 deg RMSE after 9-point calibration versus 6.68 +/- 2.34 deg for Elastic Net; the gain is larger on still-head queries (2.92 +/- 0.75 deg vs. 4.45 +/- 0.30 deg). Across three subject holdouts of 10 subjects each, EMC-Gaze retains an advantage (5.66 +/- 0.19 deg vs. 6.49 +/- 0.33 deg). On MPIIFaceGaze with short per-session calibration, the eye-focused model reaches 8.82 +/- 1.21 deg at 16-shot calibration, ties Elastic Net at 1-shot, and outperforms it from 3-shot onward. The exported eye-focused encoder has 944,423 parameters, is 4.76 MB in ONNX, and supports calibrated browser prediction in 12.58/12.58/12.90 ms per sample (mean/median/p90) in Chromium 145 with ONNX Runtime Web. These results position EMC-Gaze as a calibration-friendly operating point rather than a universal state-of-the-art claim against heavier appearance-based systems.
研究の動機と目的
- ブラウザ対応設定での較正負担、頭部動作のロバスト性、ブラウザ展開の実現性を強調したウェブカメラ視線追跡のデプロイメント指向の動作点を動機づける。
- E(3) 同変性ランドマークグラフエンコーダを用いたランドマークベースのセッション適応視線推定器を開発する。
- メタ学習内に閉形式リッジ回帰器を組み込み、訓練時の適応とデプロイ時の適応を整合させる。
- 実行時を軽量に保ちつつ、2視点正準化の一貫性と任意の姿勢残差を用いて頑健性を強化する。
提案手法
- eye領域の形状に焦点を当てた E(3) 同変ランドマークグラフエンコーダを使用する。
- より豊かな局所アイジオメトリ、両眼強調、虹彩距離不変量を追加する。
- メタ学習時とデプロイ時の両方で用いられる differentiable な閉形式リッジ回帰ヘッドを訓練する。
- (オプション)頭部姿勢からの2D視線補正をモデル化する小さな姿勢残差ヘッドを含める。
- 2視点正準化の一貫性と訓練時には3D視線方向の監督を正則化項として適用する。
- 暗黙的オンライン較正や低容量の事後姿勢補正層といったデプロイメント指向の拡張を提供する。
実験結果
リサーチクエスチョン
- RQ1ランドマークベースのセッション-wise 適応アプローチは、ブラウザ対応設定で小さなセッションごとの較正で実用的な精度を達成できるか。
- RQ2E(3) 同変性ランドマークグラフエンコーダは、非同変または生ランドマークベースのベースラインと比較して剛性頭部運動に対する頑健性を改善するか。
- RQ3メタ学習時に閉形式リッジ回帰器を組み込むことでエンコーダを実際のデプロイ適応と整合させられるか。
- RQ42視点正準化の一貫性と姿勢正則化は、デプロイメントの複雑さを増さずに姿勢リークを改善できるか。
- RQ5EMC-Gaze は主体分離のベンチマークやセッションレベルのベンチマーク、MPIIFaceGaze のような公開データセットで強力なベースラインと比較してどのように性能を示すか。
主な発見
| Method | Still (deg) | Pose (deg) | Overall (deg) |
|---|---|---|---|
| EMC-Gaze (ours, pursuit-enhanced) | 2.92 ± 0.75 | 6.42 ± 1.89 | 5.79 ± 1.81 |
| Elastic Net | 4.45 ± 0.30 | 7.11 ± 2.49 | 6.68 ± 2.34 |
| Ridge | 3.78 ± 2.20 | 31.07 ± 13.35 | 27.28 ± 11.27 |
| Meta GNN | 3.68 ± 2.20 | 29.72 ± 11.98 | 26.41 ± 10.18 |
- EMC-Gaze は 9 点較正で総合的に角度 RMSE が 5.79 度(±1.81)、33 セッションのインタラクティブなベンチマークで Elastic Net(6.68 度)や他のベースラインを上回る。
- 静止頭部ターゲットでは EMC-Gaze が 2.92 度(±0.75)対して Elastic Net は 4.45 度;姿勢ホールドでは EMC-Gaze が 6.42 度(±1.89)対して Elastic Net は 7.11 度。
- 回顧的な被験者分離評価の 3 分割では EMC-Gaze が総合 5.66 度(±0.19)で、Elastic Net の 6.49 度(±0.33)を上回る。
- MPIIFaceGaze LOPOベンチマークの 16-shot 較正では、EMC-Gaze は 8.82 度(121 と共に)に到達し、その較正レベルで Elastic Net を 2.01 度上回る。
- アイを中心としたエンコーダはパラメータ数 944,423、エクスポートサイズ約 4.76 MB(ONNX)、ブラウザ予測待機時間はヘッドレス Chrome 145 で平均/中央値約 12.58 ms。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。