[论文解读] Fast camera focus estimation for gaze-based focus control
本文提出了一种基于眼动追踪的实时眼动聚焦系统,可动态将焦点对准用户的兴趣点。通过在多焦点图像上采用基于图的方法估计深度图,该系统在单核i5处理器上实现了每帧约20ms的处理速度,达到与最先进方法相当的精度,且计算成本极低,无需参数调优。
Many cameras implement auto-focus functionality. However, they typically require the user to manually identify the location to be focused on. While such an approach works for temporally-sparse autofocusing functionality (e.g., photo shooting), it presents extreme usability problems when the focus must be quickly switched between multiple areas (and depths) of interest - e.g., in a gaze-based autofocus approach. This work introduces a novel, real-time auto-focus approach based on eye-tracking, which enables the user to shift the camera focus plane swiftly based solely on the gaze information. Moreover, the proposed approach builds a graph representation of the image to estimate depth plane surfaces and runs in real time (requiring ~20ms on a single i5 core), thus allowing for the depth map estimation to be performed dynamically. We evaluated our algorithm for gaze-based depth estimation against state-of-the-art approaches based on eight new data sets with flat, skewed, and round surfaces, as well as publicly available datasets.
研究动机与目标
- 解决传统自动对焦系统依赖手动或中央点对焦选择所带来的可用性限制。
- 实现实时、快速、动态地在多个兴趣区域之间切换对焦。
- 开发一种基于眼动追踪数据的注视驱动自动对焦系统,实现直观的用户控制。
- 实现适合交互式应用(如外科手术、安防和人机协作)的高速深度图估计。
提出的方法
- 该方法在不同焦距下捕获19张图像,为每个场景构建一个对焦堆栈。
- 应用对焦度量算子(如梯度、统计、基于频率的方法)来估计每个像素的局部对焦质量。
- 基于对焦度量结果,构建基于Delaunay三角剖分的图表示,以建模深度表面。
- 算法选择对焦响应最大的节点(G_max),并构建图以插值深度;另提供一种使用所有节点(G_all)的可选变体,以提升表面重建质量。
- 通过在单核CPU上高效处理,加速深度估计,实现每帧约20ms的深度图计算速度。
- 将商用眼动仪获取的注视位置映射到估计的深度图上,以动态调整相机的对焦平面。
实验结果
研究问题
- RQ1能否在计算开销极低的前提下,实现实时的眼动聚焦控制?
- RQ2与最先进方法相比,基于图的深度估计方法在多焦点图像上重建深度的精度如何?
- RQ3在图构建中仅使用最大响应节点(G_max)与使用所有节点(G_all)相比,对深度图质量与计算成本有何影响?
- RQ4该系统在各种表面类型(包括平面、倾斜和曲面)上是否能保持高精度?
- RQ5在不同图像内容和对焦度量可靠性变化的情况下,该方法表现如何?
主要发现
- 所提方法在单核i5处理器上实现每帧约20ms的深度图估计,支持实时性能。
- 在八个新数据集和公开基准测试中,系统在平均绝对误差方面表现与最先进方法相当。
- 在图构建中使用所有节点(G_all)可提升表面重建精度,尤其在平面区域表现更优,但运行时间略有增加(296ms vs. 283ms)。
- 该方法对各种表面类型(包括平面、倾斜和曲面)具有鲁棒性,经验证于'tin'、'lego steps'、'tape steps'和'plastic tower'等数据集。
- 当存在有效对焦度量时,算法能正确识别并重建平面区域;但在对焦度量无效或缺失的区域,可能产生错误的表面插值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。