QUICK REVIEW

[論文レビュー] UVDoc: Neural Grid-based Document Unwarping

Floor Verhoeven, Tanguy Magne|arXiv (Cornell University)|Jan 1, 2023

Advanced Vision and Imaging被引用数 4

ひとこと要約

本稿では、1枚のRGB画像から3次元ドキュメント形状と2次元アンワープグリッドを予測する二重タスク完全畳み込みニューラルネットワークを用いた、新しい神経グリッドベースのドキュメントアンワープ手法UVDocを紹介する。主な貢献は、合成データと現実世界の画像の間のドメインギャップを低減する新しい疑似写実的データセットUVDocの構築であり、これにより、照明補正MS-SSIMおよび線分のまっすぐさ評価を含む改善された指標を用いて、ベンチマークデータセットで最先端の性能を達成できるようになった。

ABSTRACT

Restoring the original, flat appearance of a printed document from casual photographs of bent and wrinkled pages is a common everyday problem. In this paper we propose a novel method for grid-based single-image document unwarping. Our method performs geometric distortion correction via a fully convolutional deep neural network that learns to predict the 3D grid mesh of the document and the corresponding 2D unwarping grid in a dual-task fashion, implicitly encoding the coupling between the shape of a 3D piece of paper and its 2D image. In order to allow unwarping models to train on data that is more realistic in appearance than the commonly used synthetic Doc3D dataset, we create and publish our own dataset, called UVDoc, which combines pseudo-photorealistic document images with physically accurate 3D shape and unwarping function annotations. Our dataset is labeled with all the information necessary to train our unwarping network, without having to engineer separate loss functions that can deal with the lack of ground-truth typically found in document in the wild datasets. We perform an in-depth evaluation that demonstrates that with the inclusion of our novel pseudo-photorealistic dataset, our relatively small network architecture achieves state-of-the-art results on the DocUNet benchmark. We show that the pseudo-photorealistic nature of our UVDoc dataset allows for new and better evaluation methods, such as lighting-corrected MS-SSIM. We provide a novel benchmark dataset that facilitates such evaluations, and propose a metric that quantifies line straightness after unwarping. Our code, results and UVDoc dataset are available at https://github.com/tanguymagne/UVDoc.

研究の動機と目的

ドキュメントアンワープにおける合成学習データと現実世界のドキュメント写真の間のドメインギャップを解消すること。
幾何的歪み補正のため、3次元ドキュメント形状と2次元アンワープグリッドを同時に予測する深層学習モデルの開発。
強力なトレーニングと評価を可能にするために、豊富なグランドトゥルースアノテーションを備えた高品質で現実的なデータセットの作成。
ペアドされた照明あり・なし画像を用いることで、変形と照明効果を分離し、新しい評価パラダイムを可能にすること。
従来の画像忠実度指標を超えて、アンワープ品質を定量化するための新しい線分のまっすぐさ指標の導入。

提案手法

二重出力の完全畳み込みニューラルネットワークを、1回の順伝播でドキュメントの3次元グリッドメッシュと2次元逆方向アンワープグリッドの両方を予測するように訓練。
L1損失、ペルセプチュアル損失、コンテンツに適応した損失を組み合わせて、ドキュメントコンテンツとの整合性を高めるためにエンドツーエンドで訓練。
実際の紙テクスチャと制御された照明を用いた画像合成技術を活用して、疑似写実的な外観を実現するUVDocデータセットを構築。
UVDocの各画像は、照明あり（UV-lit）と照明なしのペアで提供され、照明補正評価が可能になる。
グランドトゥルースとしての3次元幾何形状とアンワープ関数を備えた20,000枚の画像を含み、グリッドベースのモデルの直接的トレーニングを可能にする。
アンワープ後のテキストラインの構造的品質を定量的に評価するための新しい線分のまっすぐさ指標を提案。

実験結果

リサーチクエスチョン

RQ1疑似写実的データで学習したニューラルネットワークは、純粋に合成データで学習したモデルに比べ、現実世界のドキュメントアンワープベンチマークでより優れた一般化性能と性能を達成できるか？
RQ2現実的な画像分布における物理的に正確な3次元形状とアンワープ関数のアノテーションを含めることで、モデルの性能と評価の正確性はどのように向上するか？
RQ33次元形状と2次元アンワープグリッドを同時に予測する二重タスクアーキテクチャは、単一タスクアプローチに比べ、幾何的補正性能をどの程度向上できるか？
RQ4データセットに照明あり・なしのペア画像が存在することで、照明アーティファクトと幾何的歪みを分離し、より頑健な評価が可能になるか？
RQ5提案された線分のまっすぐさ指標は、従来の画像類似度指標に比べ、アンワープ品質の評価においてより意味のある情報を提供するか？

主な発見

提案手法はDocUNetベンチマークで最先端の性能を達成し、UVDocデータで微調整した場合、MS-SSIMが0.475から0.504に向上し、CERが0.222から0.228に低下した。
UVDocベンチマークでは、MS-SSIMが0.725に達し、3Dデータのみで学習したモデルと比較して、Hライン誤差を3.48から2.88に、Vライン誤差を4.75から3.56に削減した。
アブレーションスタディの結果、3次元グリッド予測ヘッドとコンテンツに適応した損失（L𝑟）の両方を用いることで最良の性能が得られ、Hライン誤差は1.85、Vライン誤差は2.53にまで低下した。
UVDocデータをトレーニングに活用することで、テキスト構造の保持能力が向上し、UVDocベンチマークにおいてAD（平均歪度）が15%低下、CER（文字誤り率）が12%低下した。
UVDocに含まれる照明あり・なしペア画像により可能になった照明補正MS-SSIM指標は、従来のMS-SSIMに比べ、アンワープ品質の評価がより正確かつ頑健であることを示した。
提案された線分のまっすぐさ指標は人間の知覚と強い相関を示し、特にテキストラインの整列性に関する差を従来の指標では捉えきれない性能差を明らかにした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。