QUICK REVIEW

[論文レビュー] MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining

Pengyuan Lyu, Chengquan Zhang|arXiv (Cornell University)|Jun 1, 2022

Handwritten Text Recognition Techniques被引用数 24

ひとこと要約

MaskOCRは、エンコーダ-デコーダの文字認識フレームワーク内で、エンコーダにはマスクド画像モデリング、デコーダにはマスクド画像言語モデリングを用いることで、視覚と言語の事前学習を統合し、中国語および英語のベンチマークで高い成果を達成する。

ABSTRACT

Text images contain both visual and linguistic information. However, existing pre-training techniques for text recognition mainly focus on either visual representation learning or linguistic knowledge learning. In this paper, we propose a novel approach MaskOCR to unify vision and language pre-training in the classical encoder-decoder recognition framework. We adopt the masked image modeling approach to pre-train the feature encoder using a large set of unlabeled real text images, which allows us to learn strong visual representations. In contrast to introducing linguistic knowledge with an additional language model, we directly pre-train the sequence decoder. Specifically, we transform text data into synthesized text images to unify the data modalities of vision and language, and enhance the language modeling capability of the sequence decoder using a proposed masked image-language modeling scheme. Significantly, the encoder is frozen during the pre-training phase of the sequence decoder. Experimental results demonstrate that our proposed method achieves superior performance on benchmark datasets, including Chinese and English text images.

研究の動機と目的

視覚的 priors と言語的 priors を別個の言語モデルや単なる視覚事前学習のみに頼るのではなく、共同で活用して文字認識の改善を Motivateする。
ラベルなし実文字画像上のマスクド画像モデリングでエンコーダを事前学習し、合成文字画像上のマスクド画像言語モデリングでデコーダを事前学習する統一的な事前学習スキームを提案する。
デコーダの事前学習中にエンコーダを固定することで、実データと合成データ間のギャップを埋めつつデコーダの言語モデリングを強化することを示す。
提案手法が中国語および英語の文字認識ベンチマークで最先端または競争力のある性能を示す。

提案手法

エンコーダーが縦に区切られた画像パッチを処理してパッチ表現を生成するエンコーダ-デコーダ変換器を使用する。
実文字画像を用いたマスクド画像モデリング（コンテキスト自動エンコーダー風）でエンコーダを事前学習し、強い視覚表現を学習する。
デコーダを、実文字画像を変換して合成文字画像を作成し、マスクド画像言語モデリングを適用して学習する。エンコーダを固定してデコーダのみ更新する。
言語事前学習の間、いくつかの文字と対応する画像パッチをマスクし、可視パッチからマスクされた文字をデコーダが予測できるようにする。
実データと合成データ間のドメインギャップを緩和する連続的な事前学習戦略を採用し、標準のエンコーダ-デコーダフレームワーク内で視覚と言語の共同事前学習を可能にする。

実験結果

リサーチクエスチョン

RQ1外部の言語モデルを用いず、単一のエンコーダ-デコーダモデルだけで視覚と言語の事前学習を文字認識へ完全に統合できるか。
RQ2エンコーダのマスクド画像モデリングとデコーダのマスクド画像言語モデリングは、従来の単なる視覚事前学習や単なる言語事前学習と比べて、中国語と英語の文字画像の認識性能を改善するか。
RQ3デコーダの事前学習中にエンコーダを固定し、マスキング戦略が下流の文字認識性能に与える影響はどうか。

主な発見

視覚-言語の事前学習は、スクラッチや単一モダリティの前学習を超える性能を向上させ、エンコーダとデコーダの双方に補完的な利得をもたらす。
実文字画像でのマスクド画像モデリングによるエンコーダの事前学習は、ランダム初期化されたエンコーダに比べて明らかな精度向上をもたらす。
エンコーダを固定した状態で合成画像を用いた言語事前学習を行うと、デコーダの性能と全体の精度がさらに向上し、連続的な事前学習設計を検証する。
中国語の文字列認識では最先端の結果を達成し、BCTRなどのベンチマークで従来手法を大きく上回る改善を含む。英語の文字認識タスクでも競争力のある結果を得る。
提案された事前学習スキームを通じて、デコーダの多様なデコード戦略（CTCを含む）に対して一般化可能性が示され、実データと合成データ間の頑健性が示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。