[论文解读] What You Get Is What You See: A Visual Markup Decompiler.
本文提出了一种基于深度学习的视觉标记反编译器,可将渲染图像转换为准确的呈现性标记,而无需事先了解目标语言。通过使用联合卷积网络进行布局和文本识别,并结合基于注意力的神经机器翻译模型,该方法在 LaTeX 表达式和 HTML 片段的精确重现方面达到了 75% 的准确率,显著优于特定领域的 OCR 系统。
Building on recent advances in image caption generation and optical character recognition (OCR), we present a general-purpose, deep learning-based system to decompile an image into presentational markup. While this task is a well-studied problem in OCR, our method takes an inherently different, data-driven approach. Our model does not require any knowledge of the underlying markup language, and is simply trained end-to-end on real-world example data. The model employs a convolutional network for text and layout recognition in tandem with an attention-based neural machine translation system. To train and evaluate the model, we introduce a new dataset of real-world rendered mathematical expressions paired with LaTeX markup, as well as a synthetic dataset of web pages paired with HTML snippets. Experimental results show that the system is surprisingly effective at generating accurate markup for both datasets. While a standard domain-specific LaTeX OCR system achieves around 25% accuracy, our model reproduces the exact rendered image on 75% of examples.
研究动机与目标
- 开发一种通用的、数据驱动的系统,将渲染图像反编译为呈现性标记,而无需事先了解标记语言。
- 通过从真实世界渲染示例中学习,而非依赖语言特定的规则或模板,解决传统 OCR 的局限性。
- 引入一个包含对应 LaTeX 标记的渲染数学表达式的新数据集,用于训练和评估。
- 在真实世界的数学表达式和带有 HTML 标记的合成网页上评估模型的性能。
- 证明端到端学习的方法在准确性和泛化能力方面可超越传统手工设计的 OCR 系统。
提出的方法
- 卷积神经网络处理输入图像,提取布局和文本元素的视觉特征。
- 使用在视觉特征上训练的端到端 OCR 组件执行文本识别。
- 通过检测到的文本和视觉组件的空间与上下文分析,推断布局结构。
- 基于注意力的神经机器翻译模型从识别出的布局和文本生成目标标记(LaTeX 或 HTML)。
- 整个系统在真实世界和合成的图像-标记配对上进行端到端训练,且不对任何标记语言架构施加偏见。
- 引入一个包含 LaTeX 标记的渲染数学表达式的新数据集,以及一个带有 HTML 的合成网页数据集,用于训练和评估。
实验结果
研究问题
- RQ1深度学习模型是否能够在不了解标记语言的前提下,学习将渲染图像反编译为准确的标记?
- RQ2端到端、数据驱动的方法在标记重建方面与传统、领域特定的 OCR 系统相比表现如何?
- RQ3单一模型在不同类型的渲染内容(如数学表达式和网页)之间具有多大程度的泛化能力?
- RQ4联合布局与文本识别对标记生成准确率有何影响?
- RQ5在真实世界示例上训练的模型是否能实现从渲染图像中高保真地重建精确标记?
主要发现
- 该模型在重现渲染 LaTeX 表达式方面达到 75% 的精确匹配,显著优于仅约 25% 准确率的标准领域特定 LaTeX OCR 系统。
- 该系统在真实世界的数学表达式和合成网页上均表现出有效的泛化能力,展示了在不同内容类型上的鲁棒性。
- 基于注意力的神经机器翻译组件能够从视觉输入中准确生成复杂的标记结构。
- 将卷积网络联合用于布局和文本识别,相比独立处理,显著提升了结构准确性。
- 所引入的包含 LaTeX 标记的渲染数学表达式数据集,为视觉反编译模型的高保真训练与评估提供了支持。
- 在真实世界示例上进行端到端训练,相比基于规则或模板的 OCR 系统,性能更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。