[논문 리뷰] General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
이 논문은 OCR-2.0과 다양한 광학 문자(텍스트, 수식, 표, 음표 악보, 차트, 도형)를 다루는 고압축 인코더와 긴 맥락 디코더를 갖춘 통합 엔드-투-엔드 모델 GOT을 제안하며, 다단계 데이터 엔진과 다-task 데이터 합성으로 학습합니다.
Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's usage due to the growing demand for intelligent processing of man-made optical characters. In this paper, we collectively refer to all artificial optical signals (e.g., plain texts, math/molecular formulas, tables, charts, sheet music, and even geometric shapes) as "characters" and propose the General OCR Theory along with an excellent model, namely GOT, to promote the arrival of OCR-2.0. The GOT, with 580M parameters, is a unified, elegant, and end-to-end model, consisting of a high-compression encoder and a long-contexts decoder. As an OCR-2.0 model, GOT can handle all the above "characters" under various OCR tasks. On the input side, the model supports commonly used scene- and document-style images in slice and whole-page styles. On the output side, GOT can generate plain or formatted results (markdown/tikz/smiles/kern) via an easy prompt. Besides, the model enjoys interactive OCR features, i.e., region-level recognition guided by coordinates or colors. Furthermore, we also adapt dynamic resolution and multi-page OCR technologies to GOT for better practicality. In experiments, we provide sufficient results to prove the superiority of our model.
연구 동기 및 목표
- 일반 OCR 이론(OCR-2.0)을 정의하여 전통적 OCR(OCR-1.0)과 LVLM 기반 접근 방식의 한계를 해결한다.
- 고압축 인코더와 긴 맥락 디코더를 갖춘 통합 엔드-투-엔드 OCR 모델 GOT를 개발한다.
- 멀티태스크 학습을 위한 다양한 OCR 데이터를 합성하는 광범위한 데이터 엔진을 구축한다(일반 텍스트, 서식 있는 데이터, 일반 신호).
- 영역 프롬프트, 동적 해상도, 다중 페이지 처리와 같은 인터랙티브하고 적응 가능한 OCR 기능을 가능하게 한다.
- 문서, 장면, 일반 OCR 작업에서 포맷 출력과 함께 GOT의 성능을 시연한다.
제안 방법
- 80M 매개변수 비전 인코더(ViTDet)와 0.5B 디코더(Qwen)로 구성된 인코더-디코더 아키텍처를 사용하여 총 약 580M 매개변수를 갖는다.
- 시각 인코더를 장면+문서 텍스트 데이터에 대해 사전 학습하여 강건한 OCR 표현을 학습한다.
- 더 큰 디코더와 함께 인코더를 공동 학습하고 다중 작업 OCR 데이터를 선별하여 OCR-2.0 지식을 확장한다.
- 디코더를 후처리 학습하여 미세한 영역별, 다중 페이지, 동적 해상도 OCR를 가능하게 한다.
- 일반 OCR, Mathpix 형식 데이터, 악보, 화학/분자식, 표, 차트, 기하학 등의 합성 데이터 엔진을 사용한다.
- 세밀한 영역/색상 프롬프트 및 다중 페이지 PDF OCR를 위한 데이터 모달리티를 포함한다.
- 초고해상도 이미지를 위한 다중 자르기 및 동적 해상도 전략을 활용한다.

실험 결과
연구 질문
- RQ1다양한 OCR 작업(일반 텍스트, 수식, 표, 악보, 차트)과 언어에 대해 단일 엔드-투-엔드 모델이 높은 정확도를 달성할 수 있는가?
- RQ2OCR-2.0 지식을 GOT에 불어넣기 위한 학습 체계와 데이터 합성은 어떤 것이 필요한가?
- RQ3포맷 출력 작업(Markdown/LaTeX 식 비슷한 출력)을 포함한 GOT의 성능은 작업별 모델에 비해 어떤가?
- RQ4GOT가 효과적으로 지원할 수 있는 인터랙티브 기능(영역 프롬프트, 색상 프롬프트)은 무엇인가?
- RQ5다이나믹 해상도 및 다중 페이지 OCR이 고해상도 및 다중 페이지 문서의 실용성에 어떤 영향을 미치는가?
주요 결과
| Method | Size | Edit Distance (en) | Edit Distance (zh) | F1-score (en) | F1-score (zh) | Precision (en) | Precision (zh) | Recall (en) | Recall (zh) | BLEU (en) | BLEU (zh) | METEOR (en) | METEOR (zh) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GOT | 580M | 0.035 | 0.038 | 0.972 | 0.980 | 0.971 | 0.982 | 0.973 | 0.978 | 0.947 | 0.878 | 0.958 | 0.939 |
- GOT는 단일 580M 매개변수 모델로 여러 OCR 작업에서 최첨단 성능에 근접하거나 이를 상회한다.
- 일반 문서 OCR에서 GOT는 영어/중국어 문서 텍스트 인지 및 인식에서 강한 성능을 보인다.
- GOT는 수식 및 표에 대한 Markdown/LaTeX 비슷한 포맷 출력과 단일 스케일 및 다중 자르기 추론을 지원한다.
- 미세한 OCR 및 인터랙티브 영역/색상 프롬프트는 관심 영역 내 인식을 개선한다.
- 다이나믹 해상도 및 다중 페이지 OCR은 GOT를 초고해상도 및 다중 페이지 PDF 시나리오로 확장한다.
- 벤치마크 전반의 실험 결과에서 GOT은/en/zh 대비 우수한 지표를 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.