[論文レビュー] ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification
ESIRは、新しいラインフィッティング変換と反復的補正パイプラインを用いて、繰り返し透視歪みと文字列の曲がりを補正するエンドツーエンドで学習可能なシーンテキスト認識システムを提案する。認識性能に駆動される複数のフィードバックループを通じて補正を精緻化することで、単語レベルのラベル以外に追加のアノテーションを必要とせず、SVTP や CUTE のような困難なデータセットにおいて最先端の正確性を達成する。
Automated recognition of texts in scenes has been a research challenge for years, largely due to the arbitrary variation of text appearances in perspective distortion, text line curvature, text styles and different types of imaging artifacts. The recent deep networks are capable of learning robust representations with respect to imaging artifacts and text style changes, but still face various problems while dealing with scene texts with perspective and curvature distortions. This paper presents an end-to-end trainable scene text recognition system (ESIR) that iteratively removes perspective distortion and text line curvature as driven by better scene text recognition performance. An innovative rectification network is developed which employs a novel line-fitting transformation to estimate the pose of text lines in scenes. In addition, an iterative rectification pipeline is developed where scene text distortions are corrected iteratively towards a fronto-parallel view. The ESIR is also robust to parameter initialization and the training needs only scene text images and word-level annotations as required by most scene text recognition systems. Extensive experiments over a number of public datasets show that the proposed ESIR is capable of rectifying scene text distortions accurately, achieving superior recognition performance for both normal scene text images and those suffering from perspective and curvature distortions.
研究の動機と目的
- 既存のディープラーニングベースのシステムで性能が低下する深刻な透視歪みおよび曲がりを伴うシーンテキスト認識の持続的課題に対処すること。
- 追加のアノテーションを必要とせず、認識性能に駆動されたフィードバックによって繰り返し補正を精緻化する、堅牢でエンドツーエンドで学習可能なフレームワークの開発。
- 直線および曲線の両方のテキストラインを柔軟かつ正確にモデル化できるラインフィッティング変換の設計。
- 認識フィードバックに基づいて段階的に歪みを補正する反復的パイプラインにより、補正精度を向上させること。
- 複数の補正段階があるにもかかわらず、初期化パラメータに敏感ではなく、計算効率が高く、実用的であること。
提案手法
- 認識フィードバックに基づいて、前の段階の出力を段階的に改善する複数のフォワード補正モジュールを適用する反復的補正ネットワークを採用。
- テキストの中央ラインを多項式でモデル化する新しいラインフィッティング変換を導入し、直線および曲線の両方のテキストラインに対して柔軟かつ正確な姿勢推定を可能にする。
- ラインセグメントを用いてテキストラインの垂直方向の向きと境界を推定することで、垂直方向推定の堅牢性を向上。
- エンドツーエンドのバックプロパゲーションにより、シーンテキスト画像と単語レベルのアノテーションのみを用いて補正ネットワークを学習。
- 反復的フレームワークにより歪みが段階的に補正され、各段階が直前の段階の出力を改善することで最終的な認識正確性が向上。
- アーキテクチャは計算的に効率的であり、特徴抽出器や認識ヘッドに比べて補正ネットワークが軽量である。
実験結果
リサーチクエスチョン
- RQ1単一段階補正と比較して、反復的補正は顕著に歪んでいる画像におけるシーンテキスト認識性能を向上させるか?
- RQ2提案されたラインフィッティング変換は、透視歪みおよびテキストラインの曲がりの両方をモデル化・補正するのにどの程度有効か?
- RQ3認識駆動のバックプロパゲーションを用いたエンドツーエンド学習スキームは、追加のアノテーションを必要とせず優れた結果をもたらすか?
- RQ4補正イテレーション数やラインセグメント数といったハイパーパrameterに、システムの性能はどの程度敏感か?
- RQ5複数の補正段階があるにもかかわらず、反復的補正パイプラインは低計算オーバーヘッドを維持しながら高い正確性を達成できるか?
主な発見
- CUTEデータセットでは83.3%の認識正確性を達成し、特に顕著に歪んでいるサンプルにおいてベースライン手法を大きく上回る。
- 5回の補正イテレーションと20個のラインセグメントを用いることで、SVTPで79.6%の正確性を達成し、1イテレーションベースライン(73.2%)と比較して6.4%の向上を示した。
- 性能向上は主に初期イテレーションで顕著で、CUTEでは1から2イテレーションに増加することで正確性が5.5ポイント向上した。
- ラインセグメント数を増やす(最大15まで)ことで認識正確性が向上するが、イテレーション数の増加に比べてその恩恵は小さい。
- 複数の補正段階があるにもかかわらず、1枚あたりの推論時間は28ms(バッチサイズ1)にとどまり、ASTER(20ms)などの最先端モデルと同等の性能を示した。
- 可視化比較では、特に曲線および透視歪みのあるテキストにおいて、RARE や ASTER よりも明確で正確な補正をESIRが生成していることが確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。