Skip to main content
QUICK REVIEW

[論文レビュー] SCAN: Sliding Convolutional Attention Network for Scene Text Recognition

Yichao Wu, Fei Yin|arXiv (Cornell University)|Jun 2, 2018
Handwritten Text Recognition Techniques参考文献 26被引用数 18
ひとこと要約

この論文では、人間の読書行動を模倣するためのスライディング畳み込み注意ネットワーク(SCAN)を提案する。このモデルは、交互に繰り返される注視と移動(サッカード)を模倣し、完全畳み込み型かつ並列処理可能なアーキテクチャを採用することで、局所的注意を用い、IIIT5k、SVT、ICDARベンチマークで最先端の性能を達成するとともに、再帰型モデルに比べて解釈可能性が向上する。

ABSTRACT

Scene text recognition has drawn great attentions in the community of computer vision and artificial intelligence due to its challenges and wide applications. State-of-the-art recurrent neural networks (RNN) based models map an input sequence to a variable length output sequence, but are usually applied in a black box manner and lack of transparency for further improvement, and the maintaining of the entire past hidden states prevents parallel computation in a sequence. In this paper, we investigate the intrinsic characteristics of text recognition, and inspired by human cognition mechanisms in reading texts, we propose a scene text recognition method with sliding convolutional attention network (SCAN). Similar to the eye movement during reading, the process of SCAN can be viewed as an alternation between saccades and visual fixations. Compared to the previous recurrent models, computations over all elements of SCAN can be fully parallelized during training. Experimental results on several challenging benchmarks, including the IIIT5k, SVT and ICDAR 2003/2013 datasets, demonstrate the superiority of SCAN over state-of-the-art methods in terms of both the model interpretability and performance.

研究の動機と目的

  • 再帰型ニューラルネットワーク(RNN)ベースのモデルが、逐次的計算による遅い学習と解釈困難さという限界を抱えることに対処する。
  • 明確な移動(サッカード)とテキスト要因への注視を特徴とする、人間の読書メカニズムをよりよく反映するモデルを開発する。
  • 並列学習を可能にする完全畳み込み型アーキテクチャを構築し、最適化と推論効率を向上させる。
  • セグメンテーションやブラックボックス注意に依存せずに、個々の文字に注目を集中させることで、モデルの解釈可能性を向上させる。
  • 標準的なシーンテキスト認識ベンチマークで最先端の性能を達成しつつ、透明性とさらなる改善の柔軟性を維持する。

提案手法

  • SCANは、入力特徴マップ上にスライディングウィンドウを適用し、各ウィンドウが読書中の潜在的な注視点に対応する。
  • 畳み込み層を用いて各スライディングウィンドウからの特徴を抽出することで、パラメータ共有と空間不変性を実現する。
  • 完全畳み込みネットワークを用いたシーケンス学習モジュールが、すべてのウィンドウの特徴のシーケンスを処理し、学習中にすべてのウィンドウで並列計算を可能にする。
  • 各ウィンドウごとに注意重みを計算し、関連するテキスト領域に動的に注目する。注意ヒートマップには明確な文字間のギャップが可視化され、個々の文字領域への注視の局所化が明確に示されている。
  • CTC損失を用いてエンドツーエンドで学習可能であり、特徴抽出とシーケンスデコードの共同最適化が可能である。
  • 語彙フリーおよび語彙制約付きの推論をサポートし、精度向上のための後処理を実施する。

実験結果

リサーチクエスチョン

  • RQ1完全畳み込み型で局所的注意機構を備えたモデルは、RNNベースのモデルを上回る性能を発揮し、並列学習を可能にするか?
  • RQ2サッカードと注視を模倣することで、シーンテキスト認識における性能と解釈可能性が向上するか?
  • RQ3スライディングウィンドウアプローチに畳み込みシーケンス学習を組み合わせることで、複雑な後処理を要せず、不規則で曲がったテキストを効果的に処理できるか?
  • RQ4SCANの注意機構は、個々の文字にどの程度正確に局所化されるか?また、再帰型注意モデルに比べて境界の局所化が優れているか?
  • RQ5多様なベンチマークにおいて、精度、学習速度、モデルの透明性の観点から、SCANは最先端の手法と比べてどのように差をつけるか?

主な発見

  • IIIT5kデータセットでは99.1%の精度を達成し、前回の最先端手法をほぼ1%上回った。
  • SVTデータセットでは98.3%の精度を達成し、以前の最先端手法であるCRNNモデルを2.3%上回った。
  • ICDAR 2013テストセットでは92.1%の精度を達成し、比較表に掲載されたすべての手法の中で第1位となった。
  • 注意ヒートマップには明確な文字間のギャップが可視化されており、モデルが個々の文字領域に高い精度で注目を集中できていることが示された。
  • Chengら(2018)の手法とは異なり、400万枚の追加的なピクセル単位のラベル付き画像を用いなくても、少ない学習データでも優れた性能を示した。
  • すべてのベンチマークで最高の平均順位を達成し、従来手法に比べて一貫した優位性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。