[論文レビュー] Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition
この論文は、31層のResNet、LSTMベースのエンコーダ-デコーダ、語レベルのアノテーションのみに依存する特化した2Dアテンションモジュールを用いた、 irregular scene text recognition のためのシンプルでありながら強力なベースラインを提示する。文字レベルの監視なしで、 irregular Text で最先端の結果、regular Text で競争力のある結果を達成する。
Recognizing irregular text in natural scene images is challenging due to the large variance in text appearance, such as curvature, orientation and distortion. Most existing approaches rely heavily on sophisticated model designs and/or extra fine-grained annotations, which, to some extent, increase the difficulty in algorithm implementation and data collection. In this work, we propose an easy-to-implement strong baseline for irregular scene text recognition, using off-the-shelf neural network components and only word-level annotations. It is composed of a $31$-layer ResNet, an LSTM-based encoder-decoder framework and a 2-dimensional attention module. Despite its simplicity, the proposed method is robust and achieves state-of-the-art performance on both regular and irregular scene text recognition benchmarks. Code is available at: https://tinyurl.com/ShowAttendRead
研究の動機と目的
- 形状、向き、歪みに大きなばらつきのある自然 scenes の irregular text 認識に取り組む。
- ResNet、LSTM、アテンションなどの市販の部品を用いた、キャラクター-level supervision なしのシンプルでエンドツーエンドで訓練可能なベースラインを開発する。
- 2Dアテンション機構が explicit rectification なしで irregular レイアウトの文字を頑健に局在できることを示す。
- irregular text ベンチマークでの性能向上を示しつつ、regular text データセットでも競争力を保つ。
提案手法
- 入力画像を固定の高さにリサイズし、幅は可変とすることで2D特徴マップを抽出する31層のResNet。
- 畳み込み後の特徴マップ列を処理する2層のLSTMエンコーダは、縦方向の最大プーリングを用いて全体的な画像表現を生成する。
- 2層のLSTMデコーダが文字列を生成し、各ステップで2Dアテンションに基づくグリンプスを用いる。
- 局所的な特徴選択を可能にする、畳み込みで実装された隣接情報を伴う2Dアテンションモジュールは、2D特徴マップ上でアテンションを計算する。
- キャラクターレベルの監視はなく、語レベルのアノテーションのみを用い、クロスエントロピー損失でエンドツーエンド最適化する;データはSyntheticとPublic Realデータを組み合わせて訓練する。
- デコーディング時にはビーム探索(top-5)を用いて認識精度を向上させる。
実験結果
リサーチクエスチョン
- RQ1自然 scenes の irregular text は rectification や character-level supervision なしで効果的に認識できるか。
- RQ2ResNet由来の特徴に対する2Dアテンション機構は irregular text レイアウトに対して頑健な文字局在を提供するか。
- RQ3提案ベースラインは irregular text ベンチマークで最先端手法と比較してどうなるか、また regular text データセットでの性能はどうか。
主な発見
- 提案された2Dアテンションベースのベースラインは、character-level annotations なしで irregular text ベンチマーク(IC15, SVTP, CT80, COCO-Text)で最先端を達成した。
- この手法は正規のテキストデータセット(IIIT5K, SVT, IC13)でも競争力のある結果を示し、さまざまな設定でしばしば最良または2位を占めることが多い。
- アブレーション研究は、隣接情報を伴う2Dアテンションが従来の2Dおよび1Dアテンションよりも優れており、より大きなCNN/LSTM容量を維持することが精度に重要であることを示している。
- モデルは、SyntheticおよびPublic Realデータを用いた零からのエンドツーエンド訓練が可能で、推論速度はパッチあたり約15 msである。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。