QUICK REVIEW

[論文レビュー] Fast camera focus estimation for gaze-based focus control

Wolfgang Fuhl, Thiago Santini|arXiv (Cornell University)|Nov 9, 2017

Image Processing Techniques and Applications参考文献 3被引用数 38

ひとこと要約

本稿では、ユーザーの注目点に応じて焦点を動的に合わせる、リアルタイムで眼動-trackingを活用した注焦点制御システムを提案する。マルチフォーカル画像を用いたグラフベースの深度推定により、1コアのi5プロセッサ上で1フレームあたり約20msの処理が可能となり、最新の精度を達成しながら計算コストを最小限に抑え、パrameterチューニングも不要である。

ABSTRACT

Many cameras implement auto-focus functionality. However, they typically require the user to manually identify the location to be focused on. While such an approach works for temporally-sparse autofocusing functionality (e.g., photo shooting), it presents extreme usability problems when the focus must be quickly switched between multiple areas (and depths) of interest - e.g., in a gaze-based autofocus approach. This work introduces a novel, real-time auto-focus approach based on eye-tracking, which enables the user to shift the camera focus plane swiftly based solely on the gaze information. Moreover, the proposed approach builds a graph representation of the image to estimate depth plane surfaces and runs in real time (requiring ~20ms on a single i5 core), thus allowing for the depth map estimation to be performed dynamically. We evaluated our algorithm for gaze-based depth estimation against state-of-the-art approaches based on eight new data sets with flat, skewed, and round surfaces, as well as publicly available datasets.

研究の動機と目的

従来のオートフォーカスシステムが手動または中央点フォーカス選択に依存するという使いやすさの制限を解消すること。
複数の注目領域間で、リアルタイムで高速かつ動的に入れ替え可能なフォーカス切り替えを実現すること。
眼動-trackingデータを活用した、直感的なユーザー操作を可能にする注焦点駆動型オートフォーカスシステムの開発。
手術、セキュリティ、人間-ロボット協働などのインタラクティブなアプリケーションに適した、高速な深度マップ推定を達成すること。

提案手法

本手法は、各シーンに対して19枚の異なる焦点距離の画像を取得し、フォーカススタックを形成する。
局所的なフォーカス品質をピクセルごとに推定するため、勾配、統計的、周波数ベースのフォーカス指標演算子を適用する。
フォーカス指標から、デローニ三角形に基づくグラフ表現を構築し、深度面をモデル化する。
最大フォーカス応答ノード（G_max）を選択し、深度を補間するためのグラフを構築する。また、表面再構築を改善するためのオプション版として、すべてのノード（G_all）を用いるバージョンも提供する。
1コアCPU上で効率的な処理を実現し、深度マップの計算を1フレームあたり約20msで達成する。
商業用の眼動トレッカーから得られる注視位置を、推定された深度マップにマッピングし、カメラのフォーカス平面を動的に調整する。

実験結果

リサーチクエスチョン

RQ1最小限の計算コストで、眼動トラッキングを用いたフォーカス制御をリアルタイムに実装できるか？
RQ2グラフベースの深度推定法は、最新の手法と比較して、マルチフォーカル画像からどの程度正確に深度を再構築できるか？
RQ3最大応答ノード（G_max）のみを用いるのと、すべてのノード（G_all）を用いるのとでは、深度マップの品質と計算コストにどのような影響があるか？
RQ4平面、傾斜面、曲面を含む多様な表面タイプにおいて、本手法が高精度を維持できるか？
RQ5画像内容の変化やフォーカス指標の信頼性の変動に対して、本手法はどの程度の性能を示すか？

主な発見

提案手法は、1コアのi5プロセッサ上で1フレームあたり約20msの深度マップ推定を実現し、リアルタイム性能を達成した。
8つの新規データセットおよび公開ベンチマークにおいて、最新の手法と同等の平均絶対誤差性能を示した。
グラフ構築時にすべてのノード（G_all）を用いることで、特に平面領域の表面再構築精度が向上したが、実行時間にわずかな増加（296ms vs. 283ms）が生じた。
『tin』、『lego steps』、『tape steps』、『plastic tower』などのデータセットを用いた検証により、平面、歪んだ、丸みを帯びた表面など、多様な表面タイプに対して本手法が耐障害性を示した。
有効なフォーカス指標が存在する領域では、平面表面を正しく同定・再構築できるが、無効または欠落したフォーカス測定値がある領域では、誤った表面を補間する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。