QUICK REVIEW

[论文解读] UVDoc: Neural Grid-based Document Unwarping

Floor Verhoeven, Tanguy Magne|arXiv (Cornell University)|Jan 1, 2023

Advanced Vision and Imaging被引用 4

一句话总结

本文提出UVDoc，一种基于神经网格的新型文档去畸变方法，采用双任务全卷积网络，从单张RGB图像中预测3D文档形状与2D去畸变网格。主要贡献是构建了一个新型伪真实感数据集UVDoc，显著缩小了合成数据与真实世界图像之间的域差距，使模型在基准数据集上实现最先进性能，评估指标包括光照校正的MS-SSIM与文本线直线度评估。

ABSTRACT

Restoring the original, flat appearance of a printed document from casual photographs of bent and wrinkled pages is a common everyday problem. In this paper we propose a novel method for grid-based single-image document unwarping. Our method performs geometric distortion correction via a fully convolutional deep neural network that learns to predict the 3D grid mesh of the document and the corresponding 2D unwarping grid in a dual-task fashion, implicitly encoding the coupling between the shape of a 3D piece of paper and its 2D image. In order to allow unwarping models to train on data that is more realistic in appearance than the commonly used synthetic Doc3D dataset, we create and publish our own dataset, called UVDoc, which combines pseudo-photorealistic document images with physically accurate 3D shape and unwarping function annotations. Our dataset is labeled with all the information necessary to train our unwarping network, without having to engineer separate loss functions that can deal with the lack of ground-truth typically found in document in the wild datasets. We perform an in-depth evaluation that demonstrates that with the inclusion of our novel pseudo-photorealistic dataset, our relatively small network architecture achieves state-of-the-art results on the DocUNet benchmark. We show that the pseudo-photorealistic nature of our UVDoc dataset allows for new and better evaluation methods, such as lighting-corrected MS-SSIM. We provide a novel benchmark dataset that facilitates such evaluations, and propose a metric that quantifies line straightness after unwarping. Our code, results and UVDoc dataset are available at https://github.com/tanguymagne/UVDoc.

研究动机与目标

解决文档去畸变中合成训练数据与真实世界文档图像之间的域差距问题。
开发一种深度学习模型，联合预测3D文档形状与2D去畸变网格，以校正几何失真。
构建高质量、逼真的数据集，包含丰富的真实标注，以支持鲁棒训练与评估。
通过成对的有阴影与无阴影图像，解耦形变与光照影响，实现新型评估范式。
提出一种新型文本线直线度度量，用于量化评估去畸变质量，超越传统图像保真度指标。

提出的方法

训练一个双头全卷积神经网络，在一次前向传播中同时预测文档3D形状的网格结构与2D逆向去畸变网格。
采用L1损失、感知损失与内容感知损失的组合进行端到端训练，以提升与文档内容的对齐效果。
利用真实纸张纹理与受控光照条件，通过图像合成技术构建UVDoc数据集，实现伪真实感外观。
UVDoc中的每张图像均配有一张有阴影版本（UV-lit）与一张无阴影版本，支持光照校正评估。
数据集包含20,000张图像，附带真实3D几何结构与去畸变函数标注，可直接用于基于网格模型的训练。
提出一种新型文本线直线度度量，用于定量评估校正后文本线的结构质量。

实验结果

研究问题

RQ1在伪真实感数据上训练的神经网络，是否能在真实世界文档去畸变基准上实现比纯合成数据训练模型更好的泛化能力与性能？
RQ2在逼真图像分布中引入物理准确的3D形状与去畸变函数标注，对模型性能与评估保真度有何影响？
RQ3联合预测3D形状与2D去畸变网格的双任务网络架构，与单任务方法相比，能否显著提升几何校正效果？
RQ4数据集中成对的有阴影与无阴影图像，是否能通过解耦光照伪影与几何失真，实现更鲁棒的评估？
RQ5所提出的文本线直线度度量是否比标准图像相似度指标更能反映去畸变质量的实质差异？

主要发现

所提方法在DocUNet基准上达到最先进性能，微调UVDoc数据后，MS-SSIM从0.475提升至0.504，CER从0.222降至0.228。
在UVDoc基准上，MS-SSIM达到0.725，H-line直线度误差从3.48降至2.88，V-line从4.75降至3.56，优于仅在Doc3D上训练的模型。
消融实验表明，同时使用3D网格预测头与内容感知损失（L𝑟）可获得最佳性能，H-line误差降至1.85，V-line误差降至2.53。
在训练中使用UVDoc数据显著提升了模型保持文本结构的能力，UVDoc基准上AD（平均畸变）降低15%，CER（字符错误率）降低12%。
得益于UVDoc中成对的有阴影与无阴影图像，光照校正的MS-SSIM指标提供了比标准MS-SSIM更准确、更鲁棒的去畸变质量评估。
所提出的直线度度量与人类感知具有强相关性，能揭示标准度量未捕捉到的性能差异，尤其在文本线对齐方面。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。