QUICK REVIEW

[论文解读] Image-to-Markup Generation with Coarse-to-Fine Attention

Yuntian Deng, Anssi Kanervisto|arXiv (Cornell University)|Sep 16, 2016

Mathematics, Computing, and Information Processing被引用 85

一句话总结

该论文提出了一种在神经编码器-解码器模型中用于图像到标记生成的粗粒度到细粒度注意力机制，特别针对图像到LaTeX转换任务。通过使用多行循环编码器和两阶段注意力机制（先选择支持区域，再应用细粒度注意力），该模型在保持高性能的同时降低了计算开销，在真实世界渲染的数学表达式上实现了77.46%的匹配准确率，优于传统OCR系统，并在微调后对手写数据表现出强大的泛化能力。

ABSTRACT

We present a neural encoder-decoder model to convert images into presentational markup based on a scalable coarse-to-fine attention mechanism. Our method is evaluated in the context of image-to-LaTeX generation, and we introduce a new dataset of real-world rendered mathematical expressions paired with LaTeX markup. We show that unlike neural OCR techniques using CTC-based models, attention-based approaches can tackle this non-standard OCR task. Our approach outperforms classical mathematical OCR systems by a large margin on in-domain rendered data, and, with pretraining, also performs well on out-of-domain handwritten data. To reduce the inference complexity associated with the attention-based approaches, we introduce a new coarse-to-fine attention layer that selects a support region before applying attention.

研究动机与目标

开发一种数据驱动的神经模型，直接从图像生成结构化标记（如LaTeX），而无需依赖手工设计的语法规则或布局规则。
通过引入一种粗粒度到细粒度的注意力机制，降低标准注意力机制在序列生成中的高计算成本，从而减少注意力查找次数。
在包含真实世界渲染数学表达式及其对应LaTeX标记的新大规模数据集上评估该模型。
通过在合成手写数据上进行微调，评估模型在域外手写数据上的泛化能力。
证明注意力机制模型在非标准、布局敏感的OCR任务（如数学表达式识别）中可超越基于CTC的OCR系统。

提出的方法

模型使用卷积神经网络（CNN）将输入图像编码为特征图，随后通过多行循环编码器建模垂直布局与空间结构。
引入粗粒度到细粒度注意力机制：粗粒度软注意力首先选择一个支持区域（如4×4网格），随后细粒度注意力仅在该区域内运行，以减少计算量。
粗粒度注意力通过REINFORCE算法结合硬注意力变体或稀疏最大值（sparsemax）进行训练，以在准确率与效率之间取得平衡。
解码器为自回归RNN，逐个生成LaTeX标记，条件依赖于图像特征和先前预测结果。
模型在新数据集Im2Latex-100k上端到端训练，该数据集包含10万个真实世界渲染的数学表达式及其对应的LaTeX标记，使用交叉熵损失进行训练。
为实现零样本泛化实验，构建了一个合成手写数据集，支持在CROHME基准数据上进行微调。

实验结果

研究问题

RQ1端到端神经模型是否能够在不依赖显式布局语法规则或分割的前提下，从渲染的数学表达式中准确生成LaTeX标记？
RQ2粗粒度到细粒度注意力机制是否能有效降低推理复杂度，同时在图像到标记生成任务中保持高准确率？
RQ3在仅使用少量真实域内数据的情况下，经过合成手写数据预训练的模型是否能泛化到真实手写数学表达式？
RQ4在涉及复杂布局与结构的非标准OCR任务中，注意力机制模型与基于CTC的方法相比性能如何？
RQ5各组件（如多行编码器、位置嵌入、粗粒度到细粒度注意力）对最终模型性能的贡献分别是什么？

主要发现

所提出的模型在Im2Latex-100k测试集上实现了77.46%的匹配准确率，显著优于传统数学OCR系统在域内渲染数据上的表现。
粗粒度到细粒度注意力机制将细粒度注意力查找次数的平均值从标准注意力的355次降低至16次，准确率仅下降2.5%。
粗粒度到细粒度注意力的sparsemax变体实现了76.15%的准确率，同时仅使用74次细粒度查找，实现了效率与性能的良好平衡。
多行循环编码器对性能有显著贡献，其准确率明显优于单行或非循环编码器。
即使仅使用16,000个训练样本，模型准确率也能达到50%，表明其具有强大的数据效率，且随着数据集增大，性能进一步提升。
在合成手写数据上预训练后，通过在CROHME 2013和2014数据集上微调，模型性能可与顶级商业系统媲美，仅MyScript系统因拥有更多域内数据而表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。