Skip to main content
QUICK REVIEW

[論文レビュー] TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models

Minghao Li, Tengchao Lv|arXiv (Cornell University)|Sep 21, 2021
Handwritten Text Recognition Techniques参考文献 41被引用数 77
ひとこと要約

TrOCRは事前学習済みの画像とテキストのTransformerを用いたエンドツーエンドのTransformerベースOCRを提供し、CNNバックボーンや外部言語モデルなしで印刷物、手書き、シーン文字において最先端の結果を達成します。

ABSTRACT

Text recognition is a long-standing research problem for document digitalization. Existing approaches are usually built based on CNN for image understanding and RNN for char-level text generation. In addition, another language model is usually needed to improve the overall accuracy as a post-processing step. In this paper, we propose an end-to-end text recognition approach with pre-trained image Transformer and text Transformer models, namely TrOCR, which leverages the Transformer architecture for both image understanding and wordpiece-level text generation. The TrOCR model is simple but effective, and can be pre-trained with large-scale synthetic data and fine-tuned with human-labeled datasets. Experiments show that the TrOCR model outperforms the current state-of-the-art models on the printed, handwritten and scene text recognition tasks. The TrOCR models and code are publicly available at \url{https://aka.ms/trocr}.

研究の動機と目的

  • 事前学習済みの視覚モデルと言語モデルを活用するエンドツーエンドOCRの動機づけ。
  • 画像からテキストへの転写のためのCNNフリーのTransformerアーキテクチャを提案する。
  • 大規模な合成データでの事前学習が下流のOCRタスクを改善することを示す。
  • 印刷物、手書き、シーン文字ベンチマークで最先端の性能を示す。

提案手法

  • 入力画像からの384x384パッチを処理するエンコーダとして事前学習済みの画像Transformerを使用する。
  • エンコーダ-デコーダ注意機構を用いてワードピーストークンを生成するデコーダとして事前学習済みのテキストTransformerを使用する。
  • エンコーダをDeiT/BEiTの事前学習モデルで初期化し、デコーダをRoBERTa/MiniLM系で初期化する。
  • 大規模合成データでの2段階の事前学習レジームで訓練し、その後下流タスクでファインチューニングする。
  • 出力をBPEとSentencePieceでトークン化し、タスク固有の語彙に依存しない。
  • ビーム探索(ビームサイズ10)で推論し、最終的なワードピース列を生成する。

実験結果

リサーチクエスチョン

  • RQ1CNNフリーのTransformerエンコーダ-デコーダアーキテクチャは、印刷物、手書き、シーン文字全体で競争力のあるOCR精度を達成できるか。
  • RQ2CNN/RNNベースラインと比較した場合、事前学習済みの画像およびテキストTransformerがOCR性能に与える影響はどのようか。
  • RQ3合成データによる2段階の事前学習が下流のOCRベンチマークにどのように影響するか。
  • RQ4OCRで事前学習済みTransformerデコーダを使用する場合、外部言語モデリングは必要か。

主な発見

モデル精度再現率F1
TrOCR_LARGE (SROIE)96.5996.5796.58
TrOCR_BASE (SROIE)96.3796.3196.34
  • BEiTエンコーダと RoBERTa-LARGEデコーダを備えたTrOCRは、ベンチマーク全体で強力な結果を達成し、CNN/RNNベースラインを上回る。
  • SROIEでは、TrOCR-LARGEがF1=96.58を達成(表は96.59 precision、96.57 recallを示す)。
  • IAM handwritingでは、TrOCR-LARGEがCER 2.89を達成し、いくつかのCNN/RNNベースの手法を上回る。
  • シーン文字のベンチマークでは、TrOCRモデルが、合成データとベンチマークデータでファインチューニングした場合、8つの実験で5つの新しい最先端結果を樹立。
  • 比較されたバリアントは、事前学習済みの画像トランスフォーマー(BEiT)と大規模デコーダ(RoBERTa-LARGE)が最良の性能をもたらすことを示す。
  • 推論速度は、TrOCR-SMALLがパラメータ数が大幅に少ないのに、精度と速度のトレードオフが良好であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。