[论文解读] General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
本文提出 OCR-2.0 以及一个统一的端到端模型 GOT,可以处理多种光学字符(文本、公式、表格、乐谱、图表、形状),采用高压缩编码器和长上下文解码器,通过多阶段数据引擎和多任务数据合成进行训练。
Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's usage due to the growing demand for intelligent processing of man-made optical characters. In this paper, we collectively refer to all artificial optical signals (e.g., plain texts, math/molecular formulas, tables, charts, sheet music, and even geometric shapes) as "characters" and propose the General OCR Theory along with an excellent model, namely GOT, to promote the arrival of OCR-2.0. The GOT, with 580M parameters, is a unified, elegant, and end-to-end model, consisting of a high-compression encoder and a long-contexts decoder. As an OCR-2.0 model, GOT can handle all the above "characters" under various OCR tasks. On the input side, the model supports commonly used scene- and document-style images in slice and whole-page styles. On the output side, GOT can generate plain or formatted results (markdown/tikz/smiles/kern) via an easy prompt. Besides, the model enjoys interactive OCR features, i.e., region-level recognition guided by coordinates or colors. Furthermore, we also adapt dynamic resolution and multi-page OCR technologies to GOT for better practicality. In experiments, we provide sufficient results to prove the superiority of our model.
研究动机与目标
- 定义通用 OCR 理论(OCR-2.0),以解决传统 OCR(OCR-1.0)和基于 LVLM 的方法的局限性。
- 开发 GOT,一种具有高压缩编码器和长上下文解码器的统一端到端 OCR 模型。
- 构建广泛的数据引擎,以合成多样的 OCR 数据(纯文本、格式化数据和通用信号),用于多任务训练。
- 实现可交互且可适应的 OCR 功能(区域提示、动态分辨率、多页处理)。
- 展示 GOT 在文档、场景和一般 OCR 任务中对带格式输出的性能。
提出的方法
- 采用一个编码器-解码器架构,视觉编码器为80M 参数的 ViTDet,解码器为0.5B 参数的 Qwen,总参数约为580M。
- 在场景+文本文字数据上对视觉编码器进行预训练,以学习鲁棒的 OCR 表征。
- 联合训练编码器与更大的解码器,并整理多任务 OCR 数据,以扩展 OCR-2.0 知识。
- 对解码器进行后训练,以实现细粒度、支持多页和动态分辨率的 OCR。
- 采用合成数据引擎用于纯 OCR、Mathpix 格式数据、乐谱、化学/分子式、表格、图表及几何数据。
- 融入用于细粒度区域/颜色提示以及多页 PDF OCR 的数据模态。
- 对超高分辨率图像采用多裁剪和动态分辨率策略。

实验结果
研究问题
- RQ1单个端到端模型是否能够在多样化 OCR 任务(纯文本、公式、表格、乐谱、图表)和多语言上实现高精度?
- RQ2需要哪些训练方案和数据合成,才能在 GOT 中实现 OCR-2.0 的知识?
- RQ3与专用任务模型相比,GOT 在带格式输出任务(类似 Markdown/LaTeX 的输出)上的表现如何?
- RQ4GOT 能有效支持哪些交互特性(区域提示、颜色提示)?
- RQ5动态分辨率与多页 OCR 如何影响高分辨率和多页文档的实用性?
主要发现
| 方法 | 大小 | 编辑距离(英文) | 编辑距离(中文) | F1分数(英文) | F1分数(中文) | 精确度(英文) | 精确度(中文) | 召回率(英文) | 召回率(中文) | BLEU(英文) | BLEU(中文) | METEOR(英文) | METEOR(中文) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GOT | 580M | 0.035 | 0.038 | 0.972 | 0.980 | 0.971 | 0.982 | 0.973 | 0.978 | 0.947 | 0.878 | 0.958 | 0.939 |
- GOT 以统一的 580M 参数模型在多项 OCR 任务上取得接近最先进的性能。
- 在纯文档 OCR 上,GOT 展示了对英文/中文文档文本的强感知与识别能力。
- GOT 支持带格式输出(公式和表格的 Markdown/LaTeX 风格),可单尺度和多裁剪推理。
- 细粒度 OCR 与交互式区域/颜色提示可提升感兴趣区域内的识别效果。
- 动态分辨率和多页 OCR 将 GOT 扩展至超高分辨率和多页 PDF 场景。
- 跨基准的实验结果显示 GOT 相较于前一代模型,在英文/中文上具有有利的指标。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。