Skip to main content
QUICK REVIEW

[論文レビュー] STN-OCR: A single Neural Network for Text Detection and Text Recognition

Christian Bartz, Haojin Yang|arXiv (Cornell University)|Jul 27, 2017
Handwritten Text Recognition Techniques参考文献 23被引用数 50
ひとこと要約

STN-OCRは、空間変換器を注意機構として用いた、自然場景のテキストを同時に検出・認識する単一のエンドツーエンド深層ニューラルネットワークを提示し、半教師ありで訓練される。

ABSTRACT

Detecting and recognizing text in natural scene images is a challenging, yet not completely solved task. In re- cent years several new systems that try to solve at least one of the two sub-tasks (text detection and text recognition) have been proposed. In this paper we present STN-OCR, a step towards semi-supervised neural networks for scene text recognition, that can be optimized end-to-end. In contrast to most existing works that consist of multiple deep neural networks and several pre-processing steps we propose to use a single deep neural network that learns to detect and recognize text from natural images in a semi-supervised way. STN-OCR is a network that integrates and jointly learns a spatial transformer network, that can learn to detect text regions in an image, and a text recognition network that takes the identified text regions and recognizes their textual content. We investigate how our model behaves on a range of different tasks (detection and recognition of characters, and lines of text). Experimental results on public benchmark datasets show the ability of our model to handle a variety of different tasks, without substantial changes in its overall network structure.

研究の動機と目的

  • 検出と認識のパイプラインを分離せずに、エンドツーエンドのシーンテキスト認識を動機づける。
  • 再帰的な空間変換器を用いて、テキストの局在と認識を共同で学習する単一のDNNを提案する。
  • 認識損失からの逆伝播でテキスト局在を学習する半教師あり訓練を示す。
  • 検出と認識のタスクを横断する標準的なシーンテキストベンチマークで、競争力のあるまたは最先端の性能を実証する。
  • 研究コミュニティのための実用的な訓練ガイダンスとコード/モデルを提供する。

提案手法

  • 再帰的な空間変換器を介してテキスト領域をサンプリングするアフィン変換を予測する局在化ネットワークを統合する。
  • 抽出された N 個の crops からテキストを認識する CNN ベースの認識ネットワーク(ResNet 変種)を使用する。
  • 微分可能なグリッドベースの領域抽出を可能にする双線形サンプリングを適用し、エンドツーエンドの逆伝播を可能にする。
  • 認識のシーケンス予測には、位置ごとの固定長ソフトマックス分類器またはCTCを採用する。
  • 画像レベルの内容に対するテキストラベルのみでエンドツーエンドに訓練し、テキスト局在のグラウンドトuthは用いない。
  • より難しいタスクでの収束を改善するために、二段階の事前学習戦略(事前学習はSGD、微調整はAdam)を推奨する。

実験結果

リサーチクエスチョン

  • RQ1単一のマルチタスクニューラルネットワークは、自然場景でテキスト領域を検出し、エンドツーエンドの方法でテキストを認識することを学習できるか。
  • RQ2学習済みアテンション機構として空間変換器を組み込むことは、シーンテキストの検出と認識のエンドツーエンド訓練と性能を向上させるか。
  • RQ3複数行のテキストを検出する際に、そのようなモデルを收束させるための効果的な訓練戦略は何か。
  • RQ4認識損失により推進される半教師あり局在は、標準ベンチマークにおける完全教師ありまたは手作業設計パイプラインと比較してどうか。

主な発見

  • 提案されたSTN-OCRネットワークは、エンドツーエンド方式で複数の標準的なシーンテキストベンチマークにおいて最先端と競合する性能を達成する。
  • このシステムは、空間変換器を通じて認識損失を逆伝播させることで、明示的な局在ラベルなしに半教師ありの方法でテキスト局在を学習できる。
  • より簡単なタスクからのSGDでの開始と微調整のためのAdamへの切替という二段階の訓練プロトコルは、収束と局在品質を向上させる。
  • 局在と認識の両方の段階でResNetベースのバックボーンを使用すると、勾配フローと認識性能が向上する。
  • 堅牢な読み取りデータセット(ICDAR 2013、SVT、IIIT5K)では、標準の後処理を超える外部語彙集なしで競争力のある認識精度を達成する。
  • FSNSデータセットでの予備実験は、モデルが個々の単語を局在化して認識できることを示すが、完全な複数行テキスト検出は依然として困難である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。