[论文解读] TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models
TrOCR 使用端到端 Transformer 基于 OCR,利用预训练的图像和文本 Transformer,在印刷文本、手写文本和场景文本上实现无 CNN 主干或外部语言模型的最先进结果。
Text recognition is a long-standing research problem for document digitalization. Existing approaches are usually built based on CNN for image understanding and RNN for char-level text generation. In addition, another language model is usually needed to improve the overall accuracy as a post-processing step. In this paper, we propose an end-to-end text recognition approach with pre-trained image Transformer and text Transformer models, namely TrOCR, which leverages the Transformer architecture for both image understanding and wordpiece-level text generation. The TrOCR model is simple but effective, and can be pre-trained with large-scale synthetic data and fine-tuned with human-labeled datasets. Experiments show that the TrOCR model outperforms the current state-of-the-art models on the printed, handwritten and scene text recognition tasks. The TrOCR models and code are publicly available at \url{https://aka.ms/trocr}.
研究动机与目标
- 激励利用预训练视觉与语言模型的端到端 OCR。
- 提出一个不含 CNN 的 Transformer 架构用于图像到文本的转录。
- 证明在大规模合成数据上的预训练能改善下游 OCR 任务。
- 在印刷文本、手写文本和场景文本基准上展示最先进的性能。
提出的方法
- 使用预训练的图像 Transformer 作为编码器处理输入图像的 384x384 补丁。
- 使用预训练的文本 Transformer 作为解码器,通过编码器-解码器注意力生成词片段标记。
- 用 DeiT/BEiT 预训练模型初始化编码器,使用 RoBERTa/MiniLM 变体初始化解码器。
- 在大规模合成数据上进行两阶段预训练,然后在下游任务上微调。
- 对输出进行 BPE 和 SentencePiece 分词,不依赖于特定任务 vocab。
- 使用束搜索(束宽度 10)推断,生成最终的词片段序列。
实验结果
研究问题
- RQ1在不使用 CNN 的 Transformer 编码器-解码器架构是否可以在印刷文本、手写文本和场景文本上实现具有竞争力的 OCR 精度?
- RQ2与 CNN/RNN 基线相比,预训练的图像与文本 transformer 对 OCR 性能的影响如何?
- RQ3在合成数据上的两阶段预训练如何影响下游 OCR 基准?
- RQ4使用预训练的 Transformer 解码器进行 OCR 时,是否需要外部语言模型?
主要发现
| 模型 | 精确率 | 召回率 | F1 |
|---|---|---|---|
| TrOCR_LARGE (SROIE) | 96.59 | 96.57 | 96.58 |
| TrOCR_BASE (SROIE) | 96.37 | 96.31 | 96.34 |
- TrOCR 采用 BEiT 编码器和 RoBERTa-LARGE 解码器,在基准测试中表现出色,超越了 CNN/RNN 基线。
- 在 SROIE 上,TrOCR-LARGE 达到 F1 为 96.58(表格显示 96.59 的 precision,96.57 的 recall)。
- 在 IAM 手写数据集上,TrOCR-LARGE 实现 CER 为 2.89,超过了若干基于 CNN/RNN 的方法。
- 在场景文本基准上,TrOCR 模型在通过合成数据和基准数据微调后,建立了五项新的最先进结果,覆盖八个实验。
- 对比变体表明预训练的图像 Transformer(BEiT)和大解码器(RoBERTa-LARGE)能带来最佳性能。
- 推理速度方面,TrOCR-SMALL 在显著更少参数的情况下提供了有利的准确性与速度权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。