QUICK REVIEW

[論文レビュー] TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models

Minghao Li, Tengchao Lv|arXiv (Cornell University)|Sep 21, 2021

Handwritten Text Recognition Techniques参考文献 41被引用数 77

ひとこと要約

TrOCRは事前学習済みの画像とテキストのTransformerを用いたエンドツーエンドのTransformerベースOCRを提供し、CNNバックボーンや外部言語モデルなしで印刷物、手書き、シーン文字において最先端の結果を達成します。

ABSTRACT

Text recognition is a long-standing research problem for document digitalization. Existing approaches are usually built based on CNN for image understanding and RNN for char-level text generation. In addition, another language model is usually needed to improve the overall accuracy as a post-processing step. In this paper, we propose an end-to-end text recognition approach with pre-trained image Transformer and text Transformer models, namely TrOCR, which leverages the Transformer architecture for both image understanding and wordpiece-level text generation. The TrOCR model is simple but effective, and can be pre-trained with large-scale synthetic data and fine-tuned with human-labeled datasets. Experiments show that the TrOCR model outperforms the current state-of-the-art models on the printed, handwritten and scene text recognition tasks. The TrOCR models and code are publicly available at \url{https://aka.ms/trocr}.

研究の動機と目的

事前学習済みの視覚モデルと言語モデルを活用するエンドツーエンドOCRの動機づけ。
画像からテキストへの転写のためのCNNフリーのTransformerアーキテクチャを提案する。
大規模な合成データでの事前学習が下流のOCRタスクを改善することを示す。
印刷物、手書き、シーン文字ベンチマークで最先端の性能を示す。

提案手法

入力画像からの384x384パッチを処理するエンコーダとして事前学習済みの画像Transformerを使用する。
エンコーダ-デコーダ注意機構を用いてワードピーストークンを生成するデコーダとして事前学習済みのテキストTransformerを使用する。
エンコーダをDeiT/BEiTの事前学習モデルで初期化し、デコーダをRoBERTa/MiniLM系で初期化する。
大規模合成データでの2段階の事前学習レジームで訓練し、その後下流タスクでファインチューニングする。
出力をBPEとSentencePieceでトークン化し、タスク固有の語彙に依存しない。
ビーム探索（ビームサイズ10）で推論し、最終的なワードピース列を生成する。

実験結果

リサーチクエスチョン

RQ1CNNフリーのTransformerエンコーダ-デコーダアーキテクチャは、印刷物、手書き、シーン文字全体で競争力のあるOCR精度を達成できるか。
RQ2CNN/RNNベースラインと比較した場合、事前学習済みの画像およびテキストTransformerがOCR性能に与える影響はどのようか。
RQ3合成データによる2段階の事前学習が下流のOCRベンチマークにどのように影響するか。
RQ4OCRで事前学習済みTransformerデコーダを使用する場合、外部言語モデリングは必要か。

主な発見

モデル	精度	再現率	F1
TrOCR_LARGE (SROIE)	96.59	96.57	96.58
TrOCR_BASE (SROIE)	96.37	96.31	96.34

BEiTエンコーダと RoBERTa-LARGEデコーダを備えたTrOCRは、ベンチマーク全体で強力な結果を達成し、CNN/RNNベースラインを上回る。
SROIEでは、TrOCR-LARGEがF1=96.58を達成（表は96.59 precision、96.57 recallを示す）。
IAM handwritingでは、TrOCR-LARGEがCER 2.89を達成し、いくつかのCNN/RNNベースの手法を上回る。
シーン文字のベンチマークでは、TrOCRモデルが、合成データとベンチマークデータでファインチューニングした場合、8つの実験で5つの新しい最先端結果を樹立。
比較されたバリアントは、事前学習済みの画像トランスフォーマー（BEiT）と大規模デコーダ（RoBERTa-LARGE）が最良の性能をもたらすことを示す。
推論速度は、TrOCR-SMALLがパラメータ数が大幅に少ないのに、精度と速度のトレードオフが良好であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。