[論文レビュー] Appearance-based Gaze Estimation With Deep Learning: A Review and Benchmark
深層学習を用いた外観ベースの視線推定手法の包括的なレビューとベンチマークで、特徴抽出、ネットワーク設計、校正、デバイスを網羅し、標準化された評価パイプラインを提供する。
Human gaze provides valuable information on human focus and intentions, making it a crucial area of research. Recently, deep learning has revolutionized appearance-based gaze estimation. However, due to the unique features of gaze estimation research, such as the unfair comparison between 2D gaze positions and 3D gaze vectors and the different pre-processing and post-processing methods, there is a lack of a definitive guideline for developing deep learning-based gaze estimation algorithms. In this paper, we present a systematic review of the appearance-based gaze estimation methods using deep learning. Firstly, we survey the existing gaze estimation algorithms along the typical gaze estimation pipeline: deep feature extraction, deep learning model design, personal calibration and platforms. Secondly, to fairly compare the performance of different approaches, we summarize the data pre-processing and post-processing methods, including face/eye detection, data rectification, 2D/3D gaze conversion and gaze origin conversion. Finally, we set up a comprehensive benchmark for deep learning-based gaze estimation. We characterize all the public datasets and provide the source code of typical gaze estimation algorithms. This paper serves not only as a reference to develop deep learning-based gaze estimation methods, but also a guideline for future gaze estimation research. The project web page can be found at https://phi-ai.buaa.edu.cn/Gazehub.
研究の動機と目的
- 目、顔、動画といった入力タイプ全体にわたって、深層学習ベースの外観ベース視線推定手法を調査する。
- ネットワークアーキテクチャと監督スキーム(監督あり、半監督/自己監督/無監督、マルチタスク、リカレント)を分析する。
- データの前処理と後処理の手順と、それらが性能に与える影響を評価する。
- 公開済みコードとデータセットを用いた統一視線推定ベンチマークを提供する。
- 頑健で跨被験者に対応した視線推定のためのガイドラインと今後の研究方向を提案する。
提案手法
- 入力特徴を眼部画像、顔画像、動画に分類して特徴抽出のレビューを行う。
- CNNアーキテクチャと監督戦略(監督あり、半監督/自己監督/無監督、マルチタスク、リカレント)を論じる。
- 視線推定のための校正手法とデバイス/プラットフォームの考慮事項を説明する。
- ベンチマークで使用されるデータ前処理と後処理の手順と視線変換を要約する。
- 公開データセットを収集し、典型的な視線推定コードを再実装して公正な比較を可能にするベンチマークを構築・実装する。
実験結果
リサーチクエスチョン
- RQ1外観ベースの視線推定の主な深層学習アプローチは何で、入力タイプとアーキテクチャの違いはどうなるか?
- RQ2校正、被験者のばらつき、デバイス/プラットフォームの選択は視線推定の性能にどう影響するか?
- RQ3データセット間で公正に比較するために必須の前処理と後処理の手順は何か?
- RQ4現在の公開データセットとベースライン手法は何で、それらは統一評価プロトコルの下でどう性能を示すか?
主な発見
- 深層学習手法は頭部運動や被験者間のばらつきに対する頑健性を、従来の外観ベース手法より向上させる。
- 視線推定の精度を向上させるために、注意機構を用いた融合や非対称回帰を用いた二眼入力が有効である。
- 校正、データ拡張、被験者不変特徴学習は跨被験者性能にとって重要である。
- 公開データセットを収集し典型的な視線推定アルゴリズムを再実装して公正な比較を可能にするベンチマークを構築した。
- 論文は再現性のための実装手法とデータ処理コードをphi-ai.org/GazeHubで提供している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。