[論文レビュー] SVTR: Scene Text Recognition with a Single Visual Model
SVTRは、画像を文字成分にパッチ化し、局所的およびグローバルなミキシングブロックを適用することで、シーン文字を認識する単一の視覚モデルを提案します。これにより、別個のシーケンスモデルの必要性を排除します。高速な推論で、最新手法と競合する精度を達成し、リソース制約のある環境向けの超小型バリアントも含みます。
Dominant scene text recognition models commonly contain two building blocks, a visual model for feature extraction and a sequence model for text transcription. This hybrid architecture, although accurate, is complex and less efficient. In this study, we propose a Single Visual model for Scene Text recognition within the patch-wise image tokenization framework, which dispenses with the sequential modeling entirely. The method, termed SVTR, firstly decomposes an image text into small patches named character components. Afterward, hierarchical stages are recurrently carried out by component-level mixing, merging and/or combining. Global and local mixing blocks are devised to perceive the inter-character and intra-character patterns, leading to a multi-grained character component perception. Thus, characters are recognized by a simple linear prediction. Experimental results on both English and Chinese scene text recognition tasks demonstrate the effectiveness of SVTR. SVTR-L (Large) achieves highly competitive accuracy in English and outperforms existing methods by a large margin in Chinese, while running faster. In addition, SVTR-T (Tiny) is an effective and much smaller model, which shows appealing speed at inference. The code is publicly available at https://github.com/PaddlePaddle/PaddleOCR.
研究の動機と目的
- 単一の視覚モデルで、ハイブリッドなCNN/RNNやエンコーダ-デコーダフレームワークではなく、正確なシーン文字認識を動機付け、実現する。
提案手法
- 逐次的な重なり埋め込みによる、文字成分へのパッチ状の画像トークン化。
- 高さ方向に段階的に進化する3段階バックボーンで、局所(ストローク様)およびグローバル(文字間)ミキシングブロック。
- マージ・結合操作を用いてマルチスケール表現を構築し、線形予測を通じて最終的な文字列を生成する。
- 単一の視覚モデルが複雑な言語情報を含むパイプラインを置換し、クロスリンガル認識を可能にする。
- モデルバリアント SVTR-T、SVTR-S、SVTR-B、SVTR-L は、容量と速度特性が増大する。
実験結果
リサーチクエスチョン
- RQ1単一の視覚モデルは、言語強化モデルやクロスモーダルモデルと比較して競争力のある、あるいはそれを上回る精度を達成できるか、シーン文字認識で?
- RQ2局所的およびグローバルな成分レベルのミキシングブロックは、多段階の文字特徴知覚を効果的に可能にするか?
- RQ3パッチベースの多Stage処理とマージ/結合で、英語と中国語のシーン文字認識を堅牢に行えるか?
- RQ4SVTR バリアント間で、モデルサイズ、精度、推論速度のトレードオフはどうなるか?
主な発見
- SVTRは、英語のベンチマークで単一の視覚モデルによる競争的な精度を達成し、中国語文字認識では優れた結果を示す。
- SVTR-Lは、精度が高く、多くの同等手法よりも高速に動作する。
- SVTR-Tは、効果的でかなり小型のモデルを提供し、推論が速い(NVIDIA 1080Tiで1枚あたり約4.5 ms)。
- 提案された局所およびグローバルミキシングブロックと多段階バックボーンは、多粒度の文字特徴知覚(ストローク様の局所パターンと文字間依存)を可能にする。
- 逐次的な重なりパッチ埋め込みと段階的な高度削減(マージ)は、効率と精度に寄与し、パッチ埋め込みの選択とミキシングブロックの順列の利点をアブレーションで示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。