Skip to main content
QUICK REVIEW

[论文解读] Learning Edge-Preserved Image Stitching from Large-Baseline Deep Homography

Lang Nie, Chunyu Lin|arXiv (Cornell University)|Dec 11, 2020
Advanced Image and Video Retrieval Techniques参考文献 46被引用 23
一句话总结

本文提出了一种用于图像拼接的深度学习框架,结合了大基线深度单应性模块与边缘保持形变模块,能够实现任意视角和输入尺寸图像的精确拼接。该方法通过利用多尺度特征与边缘感知优化,实现了当前最优的性能表现,显著减少了伪影与边缘不连续性,同时在真实场景中展现出良好的泛化能力。

ABSTRACT

Image stitching is a classical and crucial technique in computer vision, which aims to generate the image with a wide field of view. The traditional methods heavily depend on the feature detection and require that scene features be dense and evenly distributed in the image, leading to varying ghosting effects and poor robustness. Learning methods usually suffer from fixed view and input size limitations, showing a lack of generalization ability on other real datasets. In this paper, we propose an image stitching learning framework, which consists of a large-baseline deep homography module and an edge-preserved deformation module. First, we propose a large-baseline deep homography module to estimate the accurate projective transformation between the reference image and the target image in different scales of features. After that, an edge-preserved deformation module is designed to learn the deformation rules of image stitching from edge to content, eliminating the ghosting effects as much as possible. In particular, the proposed learning framework can stitch images of arbitrary views and input sizes, thus contribute to a supervised deep image stitching method with excellent generalization capability in other real images. Experimental results demonstrate that our homography module significantly outperforms the existing deep homography methods in the large baseline scenes. In image stitching, our method is superior to the existing learning method and shows competitive performance with state-of-the-art traditional methods.

研究动机与目标

  • 解决传统图像拼接方法依赖密集且均匀分布特征而产生的鬼影效应与鲁棒性差的问题。
  • 克服现有基于深度学习的拼接方法在输入尺寸固定与泛化能力有限方面的局限。
  • 开发一种灵活的端到端深度学习框架,能够处理任意视角与输入尺寸的图像拼接。
  • 通过从边缘到内容学习形变规则,最小化鬼影效应与边缘不连续性。

提出的方法

  • 设计了一个大基线深度单应性模块,利用特征金字塔提取的多尺度特征估计投影变换,提升了大基线场景下的估计精度。
  • 采用特征相关层高效匹配特征图之间的特征,实现在不完全依赖卷积滤波器的前提下实现全局到局部的匹配。
  • 边缘保持形变模块通过在图像融合过程中关注边缘连续性,学习纠正错位并平滑不连续边缘。
  • 框架采用两阶段策略:首先通过单应性估计进行粗对齐,随后利用边缘感知监督进行细粒度形变校正。
  • 为支持任意输入尺寸,网络避免使用全连接层,或采用自适应方案以保持泛化能力。
  • 模型在包含多样化基线变化的合成数据集上进行训练,增强了对真实世界分布偏移的鲁棒性。

实验结果

研究问题

  • RQ1基于多尺度特征,深度学习框架能否在大基线图像对中实现准确的单应性估计?
  • RQ2在图像拼接过程中,如何保持边缘连续性以减少视觉伪影与鬼影效应?
  • RQ3尽管仅在合成数据上进行训练,深度图像拼接模型能否有效泛化到真实世界图像?
  • RQ4特征相关层与多尺度特征金字塔对单应性估计性能的贡献是什么?
  • RQ5从边缘到内容进行学习是否能提升拼接图像的视觉质量与结构一致性?

主要发现

  • 所提出的大型基线深度单应性模块在大基线场景下显著优于现有深度单应性方法,单应性估计的RMSE更低。
  • 边缘保持形变模块有效减少了鬼影效应并恢复了边缘连续性,相比基线方法产生了更平滑的视觉拼接结果。
  • 该方法在性能上与当前最优的传统方法相当,同时在视觉质量与伪影减少方面超越了现有的基于深度学习的拼接方法。
  • 消融实验表明,特征金字塔与特征相关层对准确的单应性估计至关重要,尤其在重叠率较低时表现更明显。
  • 边缘形变分支对实现边缘连续性至关重要,若将其移除,拼接输出中将出现明显的边缘不连续。
  • 尽管仅在合成数据上进行训练,该框架仍能良好泛化到真实世界图像,展现出强大的鲁棒性与对任意视角及输入尺寸的适应能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。