QUICK REVIEW

[論文レビュー] PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System

Chenxia Li, Weiwei Liu|arXiv (Cornell University)|Jun 7, 2022

Handwritten Text Recognition Techniques被引用数 69

ひとこと要約

PP-OCRv3 は、検出用3点と認識用6点を含む9つの新機能で PP-OCRv2 を拡張した超軽量 OCR システムであり、推論コストをほぼ同等とした状態で約5%の Hmean の向上と、より高速な GPU 推論を実現します。

ABSTRACT

Optical character recognition (OCR) technology has been widely used in various scenes, as shown in Figure 1. Designing a practical OCR system is still a meaningful but challenging task. In previous work, considering the efficiency and accuracy, we proposed a practical ultra lightweight OCR system (PP-OCR), and an optimized version PP-OCRv2. In order to further improve the performance of PP-OCRv2, a more robust OCR system PP-OCRv3 is proposed in this paper. PP-OCRv3 upgrades the text detection model and text recognition model in 9 aspects based on PP-OCRv2. For text detector, we introduce a PAN module with large receptive field named LK-PAN, a FPN module with residual attention mechanism named RSE-FPN, and DML distillation strategy. For text recognizer, the base model is replaced from CRNN to SVTR, and we introduce lightweight text recognition network SVTR LCNet, guided training of CTC by attention, data augmentation strategy TextConAug, better pre-trained model by self-supervised TextRotNet, UDML, and UIM to accelerate the model and improve the effect. Experiments on real data show that the hmean of PP-OCRv3 is 5% higher than PP-OCRv2 under comparable inference speed. All the above mentioned models are open-sourced and the code is available in the GitHub repository PaddleOCR which is powered by PaddlePaddle.

研究の動機と目的

予測コストを増やさずに、超軽量 OCR（PP-OCR）の堅牢性と精度を向上させる。
より強力な teacher-student 蒸留フレームワークとより良い特徴表現を用いてテキスト検出を強化する。
効率を維持しつつ、トランスフォーマーベースの軽量バックボーンと学習戦略でテキスト認識を強化する。
モバイルおよびエッジデバイスに適した、オープンソースでハードウェアに優しい OCR ソリューションを提供する。

提案手法

より強力な teacher（LK-PAN + DML）と軽量な student（RSE-FPN）を用いたテキスト検出のCollaborative Mutual Learning (CML) 蒸留を採用する。
テキスト検出で受容野を拡大するために LK-PAN (Large Kernel PAN) を導入する。
学生検出器の特徴表現を改善するために RSE-FPN (Residual SE FPN) を採用する。
CRNN を SVTR-LCNet (SVTR ベースの軽量認識器) に置換し、効率性の最適化を図る。
注意機構のガイド付き訓練（GTC）を適用して、追加の推論コストなしに CTC に注意ガイダンスを統合する。
ConCLR に触発されたバッチ単位の画像連結によって文脈を豊かにする TextConAug を開発する。
TextRotNet で事前学習して収束と初期化を改善する。
複数の認識器ブランチを共同監督するために U-DML (Unified Deep Mutual Learning) を採用する。
継続的な改善のために unlabeled データに疑似ラベルを付ける UIM (Unlabeled Images Mining) を使用する。
性能を維持しつつ tiny バリアント（PP-OCRv3 tiny）でモデルを圧縮・加速する。

実験結果

リサーチクエスチョン

RQ1同等の予測コストで、PP-OCRv3 は PP-OCRv2 より高いエンドツーエンドの OCR 性能（Hmean）を達成するか？
RQ2提案された検出器の改善（LK-PAN、RSE-FPN、DML）は検出の精度と速度にどう影響するか？
RQ3前述の認識戦略を用いた SVTR-LCNet は、以前の認識器と比べて精度と速度でどうか？
RQ4推論コストを増やさずに、訓練戦略（GTC、TextConAug、TextRotNet、U-DML、UIM）が認識精度に与える影響はどれか？

主な発見

Model	Hmean(%)	Model size(M)	CPU	T4 GPU
PP-OCR mobile	50.3	8	356	116
PP-OCR server	57.0	155.1	1056	200
PP-OCRv2	57.6	11.6	330	111
PP-OCRv3	62.9	15.6	331	87

PP-OCRv3 は CPU/GPU 設定で同じ推論コストのまま、エンドツーエンドの Hmean を約5%向上させる。
検出器のアブレーションでは、LK-PAN が Hmean を 83.5% から 85.0% に増加させ、中程度の速度向上をもたらす；DML は教師設定でさらに 86.0% に向上させる。
RSE-FPN を用いた学生検出器は最小限の速度ペナルティで 84.5% の Hmean を達成し、教師と組み合わせた CML 蒸留は学生バリアントで 85.4% を達成。
SVTR-LCNet は SVTR-Tiny に比べて顕著な速度向上を伴う競争力のある認識精度を達成し、GTC、TextConAug、TextRotNet、U-DML、UIM と組み合わせると改善を示す。
全体として、PP-OCRv3 はより小さなモデル footprint でエンドツーエンド OCR の Hmean を 62.9% に達成し、PP-OCRv2 の 57.6% と比較して GPU 推論を最大で 22% 高速化。
従来の PP-OCR 系と比較して、PP-OCRv3 は同じコストで 5.3% の高い Hmean を達成し、T4 GPU 推論を 22% 高速化。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。