Skip to main content
QUICK REVIEW

[论文解读] Vanishing point detection with convolutional neural networks

Ali Borji|arXiv (Cornell University)|Sep 4, 2016
Visual Attention and Saliency Detection参考文献 10被引用 25
一句话总结

本论文提出了一种基于数据驱动的方法,利用卷积神经网络(CNN)如AlexNet和VGG,在大规模YouTube衍生数据集(37,497张自然场景图像)上端到端训练,实现视点消失点检测。该方法在检测视点消失点存在性方面达到99.73%的准确率,在10×10网格上的定位top-5误差率为5.1%,显著优于传统的霍夫变换和几何方法。

ABSTRACT

Inspired by the finding that vanishing point (road tangent) guides driver's gaze, in our previous work we showed that vanishing point attracts gaze during free viewing of natural scenes as well as in visual search (Borji et al., Journal of Vision 2016). We have also introduced improved saliency models using vanishing point detectors (Feng et al., WACV 2016). Here, we aim to predict vanishing points in naturalistic environments by training convolutional neural networks in an end-to-end manner over a large set of road images downloaded from Youtube with vanishing points annotated. Results demonstrate effectiveness of our approach compared to classic approaches of vanishing point detection in the literature.

研究动机与目标

  • 开发一种基于深度学习的方法,用于在自然环境中检测视点消失点,克服传统几何与结构方法的局限性。
  • 评估CNN(AlexNet和VGG)在多样化真实场景中检测视点消失点的性能。
  • 研究训练模型在未见图像类型(如建筑物、隧道和草图)上的泛化能力。
  • 构建并发布一个大规模、多样化的37,497张图像标注数据集,以支持未来的研究。

提出的方法

  • 从道路旅行、探险和游戏视频中收集了37,497帧的大规模数据集,涵盖不同的天气、地形和光照条件。
  • 作者在10×10、20×20或30×30的网格图上手动标注视点消失点,每帧图像仅标注一个包含消失点的网格单元。
  • 训练了两种深度学习模型——AlexNet和VGG——以端到端方式预测视点消失点的存在性及其在网格上的精确位置。
  • 对于存在性预测,使用二分类头对63,916张图像(其中34,497张含视点消失点,29,419张不含)进行训练,共训练20个周期。
  • 对于定位任务,输出层配置为多分类分类器,类别数p为100、400或900,对应线性化的网格位置,训练40个周期。
  • 基准模型采用最常见的视点消失点位置(Top-1和Top-5中心)实现,用于与深度学习模型性能对比。

实验结果

研究问题

  • RQ1卷积神经网络是否能在不依赖手工设计几何特征的前提下,有效检测自然场景中的视点消失点?
  • RQ2与霍夫变换和Košecká-Zhang算法等经典方法相比,深度学习模型(AlexNet和VGG)在视点消失点检测中的性能如何?
  • RQ3在道路场景上训练的CNN在检测多样化、未见环境(如建筑物、隧道和草图)中的视点消失点方面,其泛化能力达到何种程度?
  • RQ4数据增强和数据集多样性对视点消失点检测模型的鲁棒性与准确率有何影响?

主要发现

  • VGG网络在6,000张图像的测试集上,视点消失点存在性预测准确率达到99.73%,优于AlexNet的98.9%。
  • 在20×20网格上,VGG模型的top-5误差率为15.9%,意味着在84.1%的情况下能将视点消失点精确定位在15像素范围内。
  • 深度学习模型的top-1准确率约为57%,显著高于Top-1中心基准(16.5%)和霍夫变换(35% top-1准确率)。
  • 该模型在未见场景(如建筑物和隧道)中表现出合理的泛化能力,但在草图上失败,表明其在非写实内容上的泛化能力有限。
  • 深度学习与经典方法之间的性能差距显著,霍夫变换在20×20网格上的top-1准确率仅为35%,而CNN达到57%。
  • 本研究证明,基于数据驱动的CNN可在视点消失点检测中实现高准确率,尤其在使用多样化真实世界数据训练时;同时,通过扩展和增强数据集可进一步提升模型的泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。