[論文レビュー] Scene Text Recognition with Sliding Convolutional Character Models
スライディングウィンドウを用いたCNNベースのシーン文字認識法は、畳み込み文字モデルとCTC転写を用いて、文字分割や辞書を必要とせずに端から端まで文字を検出・認識します。
Scene text recognition has attracted great interests from the computer vision and pattern recognition community in recent years. State-of-the-art methods use concolutional neural networks (CNNs), recurrent neural networks with long short-term memory (RNN-LSTM) or the combination of them. In this paper, we investigate the intrinsic characteristics of text recognition, and inspired by human cognition mechanisms in reading texts, we propose a scene text recognition method with character models on convolutional feature map. The method simultaneously detects and recognizes characters by sliding the text line image with character models, which are learned end-to-end on text line images labeled with text transcripts. The character classifier outputs on the sliding windows are normalized and decoded with Connectionist Temporal Classification (CTC) based algorithm. Compared to previous methods, our method has a number of appealing properties: (1) It avoids the difficulty of character segmentation which hinders the performance of segmentation-based recognition methods; (2) The model can be trained simply and efficiently because it avoids gradient vanishing/exploding in training RNN-LSTM based models; (3) It bases on character models trained free of lexicon, and can recognize unknown words. (4) The recognition process is highly parallel and enables fast recognition. Our experiments on several challenging English and Chinese benchmarks, including the IIIT-5K, SVT, ICDAR03/13 and TRW15 datasets, demonstrate that the proposed method yields superior or comparable performance to state-of-the-art methods while the model size is relatively small.
研究の動機と目的
- スライディングウィンドウと定視を模倣することで、堅牢なシーン文字認識を動機づける。
- スライディングウィンドウ上で動作し、文字を検出・認識する畳み込み文字モデルを開発する。
- 文字レベルの注釈なしで、弱ラベル付きの単語画像を用いてエンドツーエンドで訓練する。
- 各ウィンドウの予測をCTC転写を用いて最終的なテキスト列に変換する。
- コンパクトなモデルで、英語と中国語のシーン文字ベンチマークにおいて競争力のある性能を示す。
提案手法
- 3部構成のフレームワークを用いる:スライディングウィンドウ特徴抽出、畳み込み文字分類器、転写層。
- 32x32のグレースケールウィンドウを入力とし、多クラス文字分布を出力する15層のCNNを文字モデルとして採用する。
- 真のシーケンスの負対数尤度でネットワークをエンドツーエンドで訓練し、明示的な文字レベルのラベリングを回避する。
- 連合時系列分類(CTC)を適用して、ウィンドウごとの出力をアラインメントなしの転写にマッピングする。
- デコードはNaive(最良経路)、辞書ベース、または言語モデルベースにすることができ、LMを組み込みプルーニング戦略を含む改良CTCビームサーチを用いる。
- 効率のためにエンドツーエンド訓練とウィンドウごとの分類の parallellizable をサポートする。
実験結果
リサーチクエスチョン
- RQ1CTCを組み合わせたスライディングウィンドウ文字モデルは、文字レベルのセグメンテーションなしで効果的にシーン文字を認識できるか?
- RQ2最先端手法と比べて、英語と中国語のシーン文字ベンチマークでこの手法の性能はどうか?
- RQ3マルチスケールのスライディングウィンドウと言語モデルの統合が認識精度と速度に与える影響は?
- RQ4辞書なしで動作しつつ、データセットを越えて競争力のある精度を維持できるか?
- RQ5パフォーマンスを維持しつつ、モデルをどれだけ小型化できるか、モバイル展開に適しているか?
主な発見
- 本手法は、比較的小型のモデル(基準構成で約8.1Mパラメータ、残差ネットを用いて削減可能)で、英語ベンチマーク(IC03、IC13、IIIT5k、SVT)において競合するか、あるいは優れた性能を示します。
- マルチスケール(n=3)のスライディングウィンドウ版は、単一スケールを上回り、より多くのコンテキストを捉えることで認識を改善します。
- Naiveデコードでは最先端手法と同等の精度を達成し、辞書ベースまたはLMベースのデコードでは特定のデータセット(例:IIIT5k)でそれらを上回ることがあります。
- 中国語のTRW15の結果は、従来法より顕著に改善され、例えばベースモデルでTRW15-TのLM精度81.2%、TRW15-AのLM精度81.7%を示し、スクリプト間の一般化が強いことを示しています。
- 1サンプルあたりの推論時間は非常に効率的で、テスト機材でNaiveデコードの場合約0.015秒です。
- 合成データ(Synth、Synth-Ch)での学習により実世界データセットで強力なゼロショット性能を実現し、基本設定では辞書フリーおよび言語モデルフリーのままです。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。