Skip to main content
QUICK REVIEW

[論文レビュー] General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Haoran Wei, Chenglong Liu|arXiv (Cornell University)|Sep 3, 2024
Handwritten Text Recognition Techniques被引用数 5
ひとこと要約

この論文は OCR-2.0 と、多段階データエンジンおよび多タスクデータ合成を用いて訓練された、高圧縮エンコーダと長-contextデコーダを備え、テキスト、数式、表、楽譜、チャート、図形などの多様な光学文字を処理する統一のエンドツーエンドモデル GOT を提案します。

ABSTRACT

Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's usage due to the growing demand for intelligent processing of man-made optical characters. In this paper, we collectively refer to all artificial optical signals (e.g., plain texts, math/molecular formulas, tables, charts, sheet music, and even geometric shapes) as "characters" and propose the General OCR Theory along with an excellent model, namely GOT, to promote the arrival of OCR-2.0. The GOT, with 580M parameters, is a unified, elegant, and end-to-end model, consisting of a high-compression encoder and a long-contexts decoder. As an OCR-2.0 model, GOT can handle all the above "characters" under various OCR tasks. On the input side, the model supports commonly used scene- and document-style images in slice and whole-page styles. On the output side, GOT can generate plain or formatted results (markdown/tikz/smiles/kern) via an easy prompt. Besides, the model enjoys interactive OCR features, i.e., region-level recognition guided by coordinates or colors. Furthermore, we also adapt dynamic resolution and multi-page OCR technologies to GOT for better practicality. In experiments, we provide sufficient results to prove the superiority of our model.

研究の動機と目的

  • 従来のOCR (OCR-1.0) および LVLM ベースのアプローチの限界に対処する General OCR Theory (OCR-2.0) を定義する。
  • 高圧縮エンコーダと長文脈デコーダを備えた統一的なエンドツーエンドOCRモデル GOT を開発する。
  • マルチタスク訓練のために、多様な OCR データ(プレーン、フォーマット済み、一般信号)を合成する広範なデータエンジンを作成する。
  • インタラクティブで適応的な OCR 機能を可能にする(領域プロンプト、ダイナミック解像度、マルチページ処理)。
  • 書類、シーン、一般 OCR タスクにおけるフォーマット出力を伴う GOT の性能を示す。

提案手法

  • 80Mパラメータのビジョンエンコーダ(ViTDet)と0.5Bのデコーダ(Qwen)を組み合わせたエンコーダ-デコーダアーキテクチャを使用し、総パラメータ数は約580M。
  • シーン+文書テキストデータでビジョンエンコーダを事前学習させ、頑健なOCR表現を学習する。
  • より大きなデコーダとともにエンコーダを結合的に訓練し、マルチタスクOCRデータを整備してOCR-2.0の知識を広げる。
  • デコーダを後置訓練して、細粒度・マルチページ・ダイナミック解像度OCRを可能にする。
  • プレーンOCR、Mathpix形式データ、楽譜、化学/分子式、表、図、幾何学の合成データエンジンを用いる。
  • 細粒度領域/カラーのプロンプトやマルチページPDF OCRのデータモダリティを取り入れる。
  • 超高解像度画像向けにマルチクロップとダイナミック解像度戦略を活用する。
Figure 1: On the input side, GOT supports various optical image types, such as commonly used photographs and documents. Besides, as a general OCR-2.0 model, GOT can handle more tasks, e.g., sheet music, molecular formulas, easy geometric shapes, charts, etc. Moreover, the model can adapt to region-f
Figure 1: On the input side, GOT supports various optical image types, such as commonly used photographs and documents. Besides, as a general OCR-2.0 model, GOT can handle more tasks, e.g., sheet music, molecular formulas, easy geometric shapes, charts, etc. Moreover, the model can adapt to region-f

実験結果

リサーチクエスチョン

  • RQ1単一のエンドツーエンドモデルが、多様なOCRタスク(プレーンテキスト、数式、表、楽譜、チャート)および言語全般で高精度を達成できるか?
  • RQ2GOT に OCR-2.0 の知識を獲得させるために、どのような訓練レジームとデータ合成が必要か?
  • RQ3Markdown/LaTeX風の出力などのフォーマット出力タスクで、GOT はタスク別モデルと比較してどう性能を示すか?
  • RQ4領域プロンプトやカラー プロンプトなど、GOT が効果的にサポートできる対話的機能は何か?
  • RQ5ダイナミック解像度とマルチページOCRは、高解像度・多ページ文書の実用性にどう影響するか?

主な発見

方法サイズ編集距離 (en)編集距離 (zh)F1スコア (en)F1スコア (zh)精度 (en)精度 (zh)再現率 (en)再現率 (zh)BLEU (en)BLEU (zh)METEOR (en)METEOR (zh)
GOT580M0.0350.0380.9720.9800.9710.9820.9730.9780.9470.8780.9580.939
  • GOT は統一された 580M-parameter モデルで、複数のOCRタスクにおいて最先端モデルに対して競争力のある性能を達成する。
  • プレーン文書OCRでは、GOT は英語/中国語の文書テキストの認識と理解力を示す。
  • GOT は式と表のフォーマット出力(Markdown/LaTeX風)を、単一スケールおよびマルチクロップ推論でサポートする。
  • 細粒度OCRとインタラクティブな領域/カラー プ prompts は、関心領域内の認識を改善する。
  • ダイナミック解像度とマルチページOCRは、GOT を超高解像度およびマルチページPDFのシナリオへ拡張する。
  • ベンチマーク全体での実験結果は、GOT が prior models と比較して en/zh の指標で有利な結果を示す。
Figure 2: The framework of the proposed GOT. Stage 1: We pre-train the vision encoder using a tiny OPT-125M to adapt the OCR tasks efficiently. Stage 2: GOT is built by connecting the vision encoder to Qwen-0.5B and sufficient OCR-2.0 knowledge of more general optical characters is used in this stag
Figure 2: The framework of the proposed GOT. Stage 1: We pre-train the vision encoder using a tiny OPT-125M to adapt the OCR tasks efficiently. Stage 2: GOT is built by connecting the vision encoder to Qwen-0.5B and sufficient OCR-2.0 knowledge of more general optical characters is used in this stag

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。