[論文レビュー] What You Get Is What You See: A Visual Markup Decompiler.
本稿では、ターゲット言語の事前知識が不要な、レンダリング済み画像を正確なプレゼンテーション用マークアップに変換する深層学習ベースのビジュアルマークアップ逆コンパイラを提示する。レイアウトとテキスト認識のための共同畳み込みネットワークと、アテンションベースのニューラル機械翻訳モデルを用いることで、LaTeX式およびHTMLスニペットの75%を正確に再現し、ドメイン特化型OCRシステムを著しく上回る性能を達成した。
Building on recent advances in image caption generation and optical character recognition (OCR), we present a general-purpose, deep learning-based system to decompile an image into presentational markup. While this task is a well-studied problem in OCR, our method takes an inherently different, data-driven approach. Our model does not require any knowledge of the underlying markup language, and is simply trained end-to-end on real-world example data. The model employs a convolutional network for text and layout recognition in tandem with an attention-based neural machine translation system. To train and evaluate the model, we introduce a new dataset of real-world rendered mathematical expressions paired with LaTeX markup, as well as a synthetic dataset of web pages paired with HTML snippets. Experimental results show that the system is surprisingly effective at generating accurate markup for both datasets. While a standard domain-specific LaTeX OCR system achieves around 25% accuracy, our model reproduces the exact rendered image on 75% of examples.
研究の動機と目的
- ターゲットのマークアップ言語に関する事前知識が不要な汎用的かつデータ駆動型のシステムを構築すること。
- 従来のOCRの限界を克服し、言語固有のルールやテンプレートに依存せず、実世界のレンダリング例から学習すること。
- トレーニングおよび評価用に使用するため、レンダリング済み数式と対応するLaTeXマークアップを含む、新しいデータセットを提供すること。
- モデルの性能を、実世界の数学的式およびHTMLマークアップ付きの合成Webページの両方で評価すること。
- エンド・トゥ・エンドで学習されたアプローチが、従来の手作業で設計されたOCRシステムを上回る正確性と一般化性能を示すことを実証すること。
提案手法
- 入力画像を処理する畳み込みニューラルネットワークが、レイアウトおよびテキスト要素のための視覚的特徴を抽出する。
- 抽出された視覚的特徴を用いて、エンド・トゥ・エンドのOCRコンponentがテキスト認識を実行する。
- 検出されたテキストおよび視覚的コンポONENTの空間的・文脈的分析を通じて、レイアウト構造が推定される。
- アテンションベースのニューラル機械翻訳モデルが、認識されたレイアウトおよびテキストから、ターゲットマークアップ(LaTeXまたはHTML)を生成する。
- システム全体が、マークアップ言語に偏りのないアーキテクチャを前提とせず、実世界および合成された画像-マークアップペアに対してエンド・トゥ・エンドでトレーニングされる。
- トレーニングおよび評価用に、LaTeXマークアップ付きのレンダリング済み数学的式のデータセットと、HTML付きの合成Webページデータセットを新たに提供する。
実験結果
リサーチクエスチョン
- RQ1深層学習モデルは、マークアップ言語の事前知識がなくても、レンダリング済み画像を正確なマークアップに逆コンパイルする能力を学習できるか?
- RQ2エンド・トゥ・エンドでデータ駆動されたアプローチは、従来のドメイン特化型OCRシステムと比較して、マークアップ再構築の性能で優れているか?
- RQ31つのモデルが、数学的式やWebページなど、異なる種類のレンダリングコンテンツに対してどの程度一般化できるか?
- RQ4レイアウトとテキスト認識を統合して処理することで、マークアップ生成の正確性にどのような影響を与えるか?
- RQ5実世界の例でトレーニングされたモデルは、レンダリング済み画像から正確なマークアップを再構築するのに高い忠実度を達成できるか?
主な発見
- モデルはレンダリング済みLaTeX式の75%を正確に再現し、標準的なドメイン特化型LaTeX OCRシステム(約25%の正確性)を著しく上回った。
- 本システムは、実世界の数学的式および合成Webページの両方に対して効果的に一般化でき、コンテンツタイプを問わず頑健性を示した。
- アテンションベースのニューラル機械翻訳コンponentにより、視覚的入力から複雑なマークアップ構造を正確に生成できるようになった。
- 畳み込みネットワークを用いたレイアウトおよびテキスト認識の統合的アプローチは、分離処理と比較して構造的正確性が向上した。
- LaTeXマークアップ付きのレンダリング済み数学的式のデータセットの導入により、視覚的逆コンパイルモデルの高忠実度なトレーニングおよび評価が可能になった。
- 実世界の例を用いたエンド・トゥ・エンドのトレーニングは、ルールベースまたはテンプレート駆動型OCRシステムよりも優れた性能をもたらした。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。