QUICK REVIEW

[论文解读] Parallax-Tolerant Unsupervised Deep Image Stitching

Lang Nie, Chun-Yu Lin|arXiv (Cornell University)|Feb 16, 2023

Advanced Image and Video Retrieval Techniques被引用 10

一句话总结

tldr: 引入 UDIS++：一种无监督深度图像拼接框架，具有鲁棒的 warp（全局单应 + 局部 TPS）和缝合感知的组合以处理大视差，并具备跨数据集/泛化的迭代 warp 自适应。

ABSTRACT

Traditional image stitching approaches tend to leverage increasingly complex geometric features (point, line, edge, etc.) for better performance. However, these hand-crafted features are only suitable for specific natural scenes with adequate geometric structures. In contrast, deep stitching schemes overcome the adverse conditions by adaptively learning robust semantic features, but they cannot handle large-parallax cases due to homography-based registration. To solve these issues, we propose UDIS++, a parallax-tolerant unsupervised deep image stitching technique. First, we propose a robust and flexible warp to model the image registration from global homography to local thin-plate spline motion. It provides accurate alignment for overlapping regions and shape preservation for non-overlapping regions by joint optimization concerning alignment and distortion. Subsequently, to improve the generalization capability, we design a simple but effective iterative strategy to enhance the warp adaption in cross-dataset and cross-resolution applications. Finally, to further eliminate the parallax artifacts, we propose to composite the stitched image seamlessly by unsupervised learning for seam-driven composition masks. Compared with existing methods, our solution is parallax-tolerant and free from laborious designs of complicated geometric features for specific scenes. Extensive experiments show our superiority over the SoTA methods, both quantitatively and qualitatively. The code is available at https://github.com/nie-lang/UDIS2.

研究动机与目标

推动并解决传统拼接中手工几何特征的局限性，以及在大视差下深度拼接的泛化差距。
开发一个统一的 warp，将全局单应与薄板样条变形（TPS）结合起来，以实现内容对齐与形状保留。
设计一个无监督的缝合驱动的组合，以无缝融合已变形的图像并减少视差伪影。
提出一种迭代 warp 自适应策略，以在跨数据集和分辨率上提升泛化能力。
通过与最先进方法的广泛实验，证明其有效性与效率。

提出的方法

参数化一个混合 warp，将单应和 TPS 统一为紧凑表示，以实现全局对齐和局部变形。
使用基于 ResNet50 的特征提取并结合上下文相关性回归单应参数和残差 TPS 控制点运动。
定义对齐与失真损失，在扭曲过程中优化内容对齐与形状保留，包括网格间约束和网格内约束。
引入一个缝驱动的无监督组合网络，生成用于融合变形图像的连续掩码，受边界和光滑性项引导。
训练一个类似 UNet 的组合网络，采用Siamese 风格特征提取（权重共享）与残差特征融合，预测用于无缝拼接的组合掩码。
引入一个迭代 warp 适应程序，在新数据集上局部细化 warps 而无需标注，通过最小化 TPS 对齐特征上的重建式无监督损失来实现。

实验结果

研究问题

RQ1统一 warp 结合全局与局部变换在大视差下如何提升对齐？
RQ2是否可以通过无监督的缝驱动组合在不依赖基于光度的缝优化的情况下减少视差伪影？
RQ3迭代、无监督的自适应策略是否提升拼接模型在跨数据集与跨分辨率上的泛化？
RQ4与最先进的传统和深度拼接方法相比，所提出的 warp 与组合框架在质量与效率方面表现如何？

主要发现

所提出的 warp 在挑战性数据集上相较于若干传统与深度拼接基线实现了更优的对齐与形状保留。
缝驱动的组合比基于重建的方法更有效地消除视差伪影，同时在 GPU 加速下运行更快。
迭代 warp 自适应通过在无需标注的情况下更新局部对齐，提升跨数据集与跨分辨率的泛化能力。
该方法在大视差场景下相较于传统 warp 方法及部分深度学习拼接方法表现出效率优势。
该框架提供一个实用的、基于 GPU 的解决方案，适用于实时或近实时拼接。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。