Skip to main content
QUICK REVIEW

[论文解读] Deep Image Homography Estimation

Daniel DeTone, Tomasz Malisiewicz|arXiv (Cornell University)|Jun 13, 2016
Advanced Vision and Imaging参考文献 13被引用 165
一句话总结

本论文提出 HomographyNet,一种直接从堆叠的灰度图块估计图像到图像的单应变换的深度CNN,具有回归和分类两种变体,并使用来自 MS-COCO 的合成数据端到端训练。

ABSTRACT

We present a deep convolutional neural network for estimating the relative homography between a pair of images. Our feed-forward network has 10 layers, takes two stacked grayscale images as input, and produces an 8 degree of freedom homography which can be used to map the pixels from the first image to the second. We present two convolutional neural network architectures for HomographyNet: a regression network which directly estimates the real-valued homography parameters, and a classification network which produces a distribution over quantized homographies. We use a 4-point homography parameterization which maps the four corners from one image into the second image. Our networks are trained in an end-to-end fashion using warped MS-COCO images. Our approach works without the need for separate local feature detection and transformation estimation stages. Our deep models are compared to a traditional homography estimator based on ORB features and we highlight the scenarios where HomographyNet outperforms the traditional technique. We also describe a variety of applications powered by deep homography estimation, thus showcasing the flexibility of a deep learning approach.

研究动机与目标

  • 证明一个深度卷积网络可以在不进行单独特征检测和 RANSAC 风格鲁棒化的情况下估计单应变换。
  • 提出一种 4 点角点参数化以稳定学习并使问题具备良好条件。
  • 展示两种网络变体(回归和分类)在预测单应参数方面。
  • 提供一个端到端的数据生成流水线,用于从真实图像合成大型带标签数据集。
  • 相较传统的 ORB+RANSAC 方法进行评估并讨论深度单应估计的实际应用。

提出的方法

  • 使用一个 VGG 风格的 8 层 CNN,输入为 128x128x2(两个堆叠的灰度图块),输出 8 个参数。
  • 采用 4 点参数化,其中 H4point 编码四个角的位移(Delta u_i, Delta v_i),i=1..4。
  • 训练两种架构:一个回归头输出 8 个实数,使用 L2 损失;一个分类头,每个角有 21 个量化箱,使用 softmax/交叉熵损失。
  • 通过从 MS-COCO 随机裁剪图块并应用随机射影变换来生成训练数据,在 4 点框架中创建地面实况 H^{AB}。
  • 通过可选的遮挡和运动模糊来增强数据生成,以提升鲁棒性。
  • 在 500,000 对图块上进行训练,并在 Warped MS-COCO 测试集上评估;与 ORB+RANSAC 和一个单位基线进行比较。

实验结果

研究问题

  • RQ1深度卷积网络是否能够在不进行显式局部特征检测和 RANSAC 精炼的情况下直接估计图像到图像的单应变换?
  • RQ24 点角点参数化是否改善深度单应估计的训练稳定性和性能?
  • RQ3回归和分类表达在准确性和实用性(如置信估计)方面对单应估计的比较?
  • RQ4在实时或嵌入式系统中部署此类模型的实现速度和实用性如何?

主要发现

  • 回归型 HomographyNet 在所评估方法中实现了最佳的平均角点误差。
  • 分类型 HomographyNet 提供逐角置信度分布,有助于调试和不确定性估计。
  • 系统在 NVIDIA Titan X 上以超过 300 帧/秒的速度运行,支持实时或嵌入式部署。
  • 4 点参数化通过在各维度对齐角点位移,使学习问题变得良好可控。
  • 端到端学习消除了单独的角点检测和鲁棒单应估计步骤的需要。
  • 使用来自大型真实图像数据集的合成数据进行训练,对学习稳健的单应估计有效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。