[論文レビュー] PP-OCR: A Practical Ultra Lightweight OCR System
PP-OCR は、中国語/英語文字認識(6622字)用モデル総サイズ 3.5M、および英数字記号認識用 2.8M の実用的な超軽量OCRシステムを提示し、スリム化と精度向上の戦略の集合とオープンソースの事前学習済みモデルを特徴とします。
The Optical Character Recognition (OCR) systems have been widely used in various of application scenarios, such as office automation (OA) systems, factory automations, online educations, map productions etc. However, OCR is still a challenging task due to the various of text appearances and the demand of computational efficiency. In this paper, we propose a practical ultra lightweight OCR system, i.e., PP-OCR. The overall model size of the PP-OCR is only 3.5M for recognizing 6622 Chinese characters and 2.8M for recognizing 63 alphanumeric symbols, respectively. We introduce a bag of strategies to either enhance the model ability or reduce the model size. The corresponding ablation experiments with the real data are also provided. Meanwhile, several pre-trained models for the Chinese and English recognition are released, including a text detector (97K images are used), a direction classifier (600K images are used) as well as a text recognizer (17.9M images are used). Besides, the proposed PP-OCR are also verified in several other language recognition tasks, including French, Korean, Japanese and German. All of the above mentioned models are open-sourced and the codes are available in the GitHub repository, i.e., https://github.com/PaddlePaddle/PaddleOCR.
研究の動機と目的
- リソース制約のあるデバイスや組み込み環境において、効率的なOCRの必要性を動機づける。
- テキスト検出、ボックス整形、テキスト認識から構成される超軽量OCRパイプラインを開発する。
- サイズを削減しつつ精度を保つよう、モデル強化およびスリム化技術を体系的に適用する。
- サイズ・速度・精度のトレードオフを示すアブレーション研究とともに、オープンソースの事前学習済みモデルを提供する。
提案手法
- 軽量なバックボーンとヘッドを用いた Differentiable Binarization (DB) によるテキスト検出、検出ボックスの整形を行うテキスト方向分類器、そして軽量バックボーンを用いた CRNN によるテキスト認識の3部構成OCRパイプラインを採用する。
- テキスト検出に対して6つの戦略(軽量バックボーン、軽量ヘッド、SEの除去、コサイン学習率減衰、LRウォームアップ、FPGMプルーニング)を適用し、サイズを1.4Mまで縮小する。
- 方向分類には4つの戦略(軽量バックボーン、データ拡張、入力解像度、PACT量子化)を適用して500KBのサイズを達成する。
- テキスト認識には9つの戦略(軽量バックボーン、データ拡張、コサイン学習率減衰、特徴マップ解像度の調整、正則化、LRウォームアップ、軽量ヘッド、事前学習モデル、PACT量子化)を適用して、中国語/英語用認識器を1.6M、英数字用を900KBに削減する。
- テキスト検出、方向分類、テキスト認識の大規模多部データセットで訓練し、追加の言語対応(フランス語、韓国語、日本語、ドイツ語)を提供する。
- PaddleOCR で事前学習済みモデルとコードを公開し、より広い再利用を促進する。
実験結果
リサーチクエスチョン
- RQ1実世界のシーンで実用的な精度を犠牲にすることなく、OCRシステムを超軽量化するにはどうすればよいか。
- RQ2検出、方向分類、認識の各段階において、バックボーン、データ拡張、解像度の選択、量子化技術の組み合わせが、モデルサイズ・速度・精度の最適なトレードオフを生むのはどの組み合わせか。
- RQ3PP-OCR システムは、中国語と英語以外の言語(英数字、フランス語、韓国語、日本語、ドイツ語を含む)に対して一貫して一般化できるか。
主な発見
- PP-OCR システムは、中国語/英語認識用が総サイズ 3.5M、英数字認識用が 2.8M の超軽量を達成している。
- 軽量なバックボーンとヘッド設計、プルーニングおよびハードウェア対応最適化を組み合わせて、テキスト検出器のサイズを 1.4M に縮小できる。
- データ拡張とPACT量子化を含む4つの戦略で方向分類器を500KBのまま維持し、競争力のある精度を維持できる。
- 軽量バックボーン、データ拡張、PACT量子化の組み合わせにより、テキスト認識器は中国語/英語で1.6M、英数字で900KBに達し、実用的な精度を維持する。
- 大規模なアブレーション研究は、バックボーンの選択、特徴マップ解像度、拡張、量子化が精度(HMean, F-score)と効率(推論時間)に与える影響を示している。
- 著者は PaddleOCR を通じてオープンソースの事前学習済みモデルとコードを提供し、言語(フランス語、韓国語、日本語、ドイツ語を含む)全体の採用を促進している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。