QUICK REVIEW

[論文レビュー] WordSup: Exploiting Word Annotations for Character based Text Detection

Hu Han, Chengquan Zhang|arXiv (Cornell University)|Aug 22, 2017

Handwritten Text Recognition Techniques参考文献 47被引用数 44

ひとこと要約

この論文では、実世界のデータセットにおける文字レベルのアノテーションの不足に直面し、単語レベルのアノテーションのみを用いて文字ベースのテキスト検出器を学習する弱教師付きフレームワーク、WordSupを提案する。繰り返し文字中心マスクとモデルを単語の監視情報に基づいて改善することで、ICDAR13、ICDAR15、COCO-Textベンチマークで最先端の性能を達成し、歪んだテキストや数学的式を含む多様な状況下でも頑健な検出が可能になる。

ABSTRACT

Imagery texts are usually organized as a hierarchy of several visual elements, i.e. characters, words, text lines and text blocks. Among these elements, character is the most basic one for various languages such as Western, Chinese, Japanese, mathematical expression and etc. It is natural and convenient to construct a common text detection engine based on character detectors. However, training character detectors requires a vast of location annotated characters, which are expensive to obtain. Actually, the existing real text datasets are mostly annotated in word or line level. To remedy this dilemma, we propose a weakly supervised framework that can utilize word annotations, either in tight quadrangles or the more loose bounding boxes, for character detector training. When applied in scene text detection, we are thus able to train a robust character detector by exploiting word annotations in the rich large-scale real scene text datasets, e.g. ICDAR15 and COCO-text. The character detector acts as a key role in the pipeline of our text detection engine. It achieves the state-of-the-art performance on several challenging scene text detection benchmarks. We also demonstrate the flexibility of our pipeline by various scenarios, including deformed text detection and math expression recognition.

研究の動機と目的

大規模かつ文字レベルでアノテートされた実シーンテキストデータセットの不足に起因する、作成に費用と時間がかかる問題に対処すること。
高価な文字レベルのアノテーションを必要とせずに、頑健な文字検出器を訓練できることを可能にすること。
既存の大規模な実世界データセット（例：ICDAR15、COCO-Text）を、単語レベルでアノテートされているものを活用して文字検出に応用すること。
歪んだテキストや数学的式を含む多様なテキストタイプに対応可能な柔軟な、文字ベースのテキスト検出パイプラインの開発

提案手法

単語レベルのアノテーションを用いて、文字中心マスクの改善と文字検出器モデルの更新を繰り返す弱教師付き学習フレームワーク。
単語コストとペairワイズコストを用いたグラフベースの文字グループ化手法を採用：単語コストはテキスト/非テキストスコアと文字間距離を組み合わせ、ペアワイズコストは文字ペア間の角度距離を用いる。
テキストラインモデルは0次、1次、または区分線形中心線を用いて推定され、高さの適合度と複雑さペナルティのトレードオフに基づいてモデル選択が行われる。
計算された多角形と制御点に基づき、薄板スプライン（TPS）変換を用いてテキストラインを固定高さ（H=32）のストリップ画像に補正する。
語の分割にはCNN-RNNアーキテクチャを用い、VGG-16特徴量とBLSTM層を組み合わせ、補正済みライン画像上で語境界の位置を予測する。
データ拡張には、ランダムクロッピング、パディング、ぼかし、ノイズ、および小回転（±5°）を含み、合成および実際のライン画像の学習時に適用される。

実験結果

リサーチクエスチョン

RQ1高価な文字レベルのアノテーションではなく、単語レベルのアノテーションのみを用いて、効果的に文字検出器を訓練できるか？
RQ2単語レベルの監視情報をどのように活用することで、実シーンテキストにおける文字検出の精度と頑健性を向上させられるか？
RQ3文字ベースの検出パイプラインは、歪んだテキストラインや構造的数学的式のような多様なテキストタイプに一般化できるか？
RQ4標準ベンチマークにおいて、従来の手法と比較して弱教師付き文字検出の性能向上はどの程度見られるか？

主な発見

提案されたWordSupフレームワークは、学習に文字レベルのアノテーションを一切使用せず、ICDAR13、ICDAR15、COCO-Textベンチマークで最先端の性能を達成した。
歪んだテキストラインや構造的数学的式の効果的な検出が可能であるという点で、優れた一般化性能を示した。
WordSupを用いて訓練された文字検出器は、合成データにのみ依存する従来の文字ベース手法でさえ、実シーンテキストに適用した場合を上回る性能を示した。
単語アノテーションによる弱教師付き学習により、ICDAR15 や COCO-Text のような大規模な実データセットを、アノテーションレベルの不一致のため従来は文字検出に使えない状態であったが、それを可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。