Skip to main content
QUICK REVIEW

[論文レビュー] TextBoxes: A Fast Text Detector with a Single Deep Neural Network

Minghui Liao, Baoguang Shi|arXiv (Cornell University)|Nov 21, 2016
Handwritten Text Recognition Techniques参考文献 26被引用数 445
ひとこと要約

TextBoxes は、単一のフォワードパスで単語の境界ボックスを予測する、高速で高精度なシーン文字検出のためのエンドツーエンドの完全畳み込みネットワークを提示します。さらに、翻字認識器(CRNN)と組み合わせると単語スポッティングとエンドツーエンド認識の性能を向上させます。

ABSTRACT

This paper presents an end-to-end trainable fast scene text detector, named TextBoxes, which detects scene text with both high accuracy and efficiency in a single network forward pass, involving no post-process except for a standard non-maximum suppression. TextBoxes outperforms competing methods in terms of text localization accuracy and is much faster, taking only 0.09s per image in a fast implementation. Furthermore, combined with a text recognizer, TextBoxes significantly outperforms state-of-the-art approaches on word spotting and end-to-end text recognition tasks.

研究の動機と目的

  • 自然画像における堅牢でリアルタイムなシーン文字検出を動機づける。
  • 単語の境界ボックスを直接予測するエンドツーエンドの訓練可能なネットワークを開発する。
  • 特定の出力層とデフォルトボックスを用いて長いアスペクト比を含む単語に対する大きなばらつきを扱う。
  • 検出と認識を組み合わせることで単語スポッティングとエンドツーエンド認識の性能を改善することを示す。

提案手法

  • VGG-16に基づく28層の完全畳み込みネットワークを使用し、複数の畳み込み層の後にテキストボックス層を追加する。
  • 各マップ位置でテキストの存在スコアと複数のデフォルトボックス(長いアスペクト比を含む)への境界ボックスオフセットを予測する。
  • テキストボックス層に不規則な1x5畳み込みフィルタを用いて、単語の形状に適した長方形の受容野を作る。
  • デフォルトボックスをグラウンドトゥルースの単語ボックスにマッチさせ、分類(ソフトマックス)と局在化(滑らかL1)を組み合わせたマルチタスク損失を最適化する。
  • 複数スケールの入力テスト(5つのスケール)を適用して精度をさらに向上させ、出力を統合するために標準の非最大抑制を使用する。

実験結果

リサーチクエスチョン

  • RQ1自然シーンで単一の完全畳み込みネットワークが高い精度と速度で直接単語境界ボックスを予測できるか?
  • RQ2不規則なInception風の出力層と長いアスペクト比を持つデフォルトボックスは、極端なアスペクト比を持つ単語の検出を改善するか?
  • RQ3検出と認識を統合することで、単語スポッティングとエンドツーエンドの認識性能は改善されるか?
  • RQ4マルチスケール入力がシーン文字の検出精度と速度に及ぼす影響は何か?

主な発見

  • TextBoxes は ICDAR 2011 および ICDAR 2013 のベンチマークで最先端の文字位置特定性能を高速度で達成する。
  • 単一スケール入力では0.09s/画像、マルチスケール入力では0.73s/画像を Titan X GPUで達成。
  • 認識にCRNNを使用すると単語スポッティングとエンドツーエンド認識の結果が改善され、検出への意味的レベルの正則化を提供する。
  • TextBoxes は SSD および他のベースラインを特に大きなアスペクト比を持つ単語に対して上回る。
  • 語彙リストと組み合わせると、TextBoxes はエンドツーエンド認識性能を強力に発揮し、リコール/精度の改善とデータセット間で競争力のあるF値を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。