QUICK REVIEW

[論文レビュー] WeText: Scene Text Detection under Weak Supervision

Shangxuan Tian, Shijian Lu|arXiv (Cornell University)|Oct 13, 2017

Handwritten Text Recognition Techniques参考文献 34被引用数 17

ひとこと要約

WeTextは、229枚の完全にアノテートされた画像のみを用いて、大規模なアノテートされていないまたは弱くアノテートされたデータを活用することで、正確な文字検出器をトレーニングする弱教師付きのシーンテキスト検出フレームワークを提案する。この手法は、軽量な教師ありモデルを用いて弱教師付きデータから正例の文字サンプルをマイニングし、誤差蓄積を低減する回帰ベースの検出を統合することで、最小限の人的アノテーションで最先端の性能を達成する。

ABSTRACT

The requiring of large amounts of annotated training data has become a common constraint on various deep learning systems. In this paper, we propose a weakly supervised scene text detection method (WeText) that trains robust and accurate scene text detection models by learning from unannotated or weakly annotated data. With a "light" supervised model trained on a small fully annotated dataset, we explore semi-supervised and weakly supervised learning on a large unannotated dataset and a large weakly annotated dataset, respectively. For the unsupervised learning, the light supervised model is applied to the unannotated dataset to search for more character training samples, which are further combined with the small annotated dataset to retrain a superior character detection model. For the weakly supervised learning, the character searching is guided by high-level annotations of words/text lines that are widely available and also much easier to prepare. In addition, we design an unified scene character detector by adapting regression based deep networks, which greatly relieves the error accumulation issue that widely exists in most traditional approaches. Extensive experiments across different unannotated and weakly annotated datasets show that the scene text detection performance can be clearly boosted under both scenarios, where the weakly supervised learning can achieve the state-of-the-art performance by using only 229 fully annotated scene text images.

研究の動機と目的

深層学習における完全にアノテートされたシーンテキストデータセットの高コストと希少性に対処する。
分離された候補生成および分類ステージを排除することで、文字ベースのシーンテキスト検出における誤差蓄積を低減する。
高価な文字レベルのアノテーションではなく、より容易に収集可能な単語レベルまたはテキストラインレベルのアノテーションといった弱教師付きの监督を用いて、頑健なテキスト検出器の有効なトレーニングを可能にする。
弱教師付き学習が、最小限の人的アノテートデータで完全に教師付きモデルに近い性能を達成できることを示す。

提案手法

完全にアノテートされた文字画像の少量のデータセット上で軽量な教師ありモデルをトレーニングする。
軽量モデルを用いて、大規模なアノテートされていないまたは弱くアノテートされたデータセットから正例の文字候補を推論・マイニングする。
マイニングされたサンプルと元のアノテート済みデータを組み合わせて再トレーニングすることで、半教師付き学習を適用する。
より収集が容易な高レベルの単語またはテキストラインのアノテーションを用いて、文字候補マイニングをガイドすることで、弱教師付き学習を実装する。
プロポーザルフリーで回帰ベースの深層ネットワークを設計し、1回の順伝播で直接文字のバウンディングボックスとテキスト信頼度を予測する。
検出と分類のステップを1つの統合ネットワークに統合することで、誤差伝搬を最小限に抑え、精度と効率を向上させる。

実験結果

リサーチクエスチョン

RQ1完全にアノテートされた画像がわずかにしか利用できない状況において、弱教師付き学習がシーンテキスト検出性能を顕著に向上させられるか？
RQ2アノテートされていないまたは弱くアノテートされたデータから正例の文字サンプルをマイニングすることは、検出器性能の向上にどの程度有効か？
RQ3統合型の回帰ベース検出器は、従来の2段階の文字検出パイプラインと比較して、精度と誤差蓄積の観点で優れているか？
RQ4弱くアノテートされたデータセットのサイズが、弱教師付きモデルの性能に与える影響はどの程度か？
RQ5反復的自己学習は、弱教師付きシーンテキスト検出におけるモデル性能の向上にどの程度寄与するか？

主な発見

弱教師付きのWeTextモデルは、229枚の完全にアノテートされた文字画像のみを用いて、ICDAR 2013で最先端の性能を達成した。
COCO-Text_Weakly_TLモデルは、FORU_Semi_TLおよびFORU_Weakly_TLを上回り、より大きな弱くアノテートされたデータセットがより良い性能をもたらすことを示している。
SWTデータセットでは、提案手法が弱教師付き学習を用いることでFスコアを59.8％まで向上させ、ベースライン（53.9％）および他の先行手法を上回った。
反復的自己学習により、弱教師付きモデルのFスコアは2ラウンドで85.4％から86.2％に向上し、完全に教師付きモデル（86.2％ vs. 86.4％）に近い性能に達した。
Titan X GPU上では、1枚の画像を0.32秒で処理でき、リアルタイム応用への強い可能性を示している。
定性的な結果から、特にCOCO-Textのようなより大きな弱くアノテートされたデータセットで学習した場合、リコールの向上と誤検出の低減が顕著に見られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。