[論文レビュー] DeepText: A Unified Framework for Text Proposal Generation and Text Detection in Natural Images
DeepTextはInception-RPNを用いて語領域提案を同時に生成し、マルチレベルROIプーリングと曖昧テキスト監督を用いてテキストを検出するエンドツーエンドのCNNフレームワークを提示し、ICDAR 2011と2013でF値で最先端の性能を達成する。
In this paper, we develop a novel unified framework called DeepText for text region proposal generation and text detection in natural images via a fully convolutional neural network (CNN). First, we propose the inception region proposal network (Inception-RPN) and design a set of text characteristic prior bounding boxes to achieve high word recall with only hundred level candidate proposals. Next, we present a powerful textdetection network that embeds ambiguous text category (ATC) information and multilevel region-of-interest pooling (MLRP) for text and non-text classification and accurate localization. Finally, we apply an iterative bounding box voting scheme to pursue high recall in a complementary manner and introduce a filtering algorithm to retain the most suitable bounding box, while removing redundant inner and outer boxes for each text instance. Our approach achieves an F-measure of 0.83 and 0.85 on the ICDAR 2011 and 2013 robust text detection benchmarks, outperforming previous state-of-the-art results.
研究の動機と目的
- 自然な背景と多様なテキスト特性を持つ自然シーンでの堅牢なテキスト検出を動機づける。
- 高いリコールの語 proposal を生成し、テキスト領域を正確に分類・検出する統合フレームワークを開発する。
- 提案候補を数百に削減しつつ高いリコールを維持する。
- 曖昧テキストラベリングとマルチレベルROIプーリングによって検出の精度を向上させる。
- ICDAR 2011および2013のベンチマークで最先端の性能を示す。
提案手法
- Conv5_3上を滑動させるマルチスケール・マルチフィルターカーネルを用いたInception-RPNを設計し、場所ごとに24個のテキスト特性を持つ事前 bounding box を使用する。
- 各事前ボックスに対して分類ヘッドと回帰ヘッドを用いてテキスト性スコアと refined coordinates を出力する。
- 曖昧テキストカテゴリ(ATC)ラベリングを導入し、テキスト候補と非テキスト候補をより明確に分離する。
- Conv4_3とConv5_3上でのマルチレベルROIプーリング(MLRP)を適用し、特徴を融合して検出ヘッドへ入力する。
- 分類と回帰の項を組み合わせたマルチタスク損失でエンドツーエンドに学習する。
- テキストインスタンスごとに冗長な内側/外側のボックスを除去するための反復的バウンディングボックス投票とフィルタ링を実施する。
実験結果
リサーチクエスチョン
- RQ1自然 scenesのテキスト用に hundreds の候補を持つ高リコールの語 proposals を統合CNNフレームワークで生成できるか?
- RQ2ATC情報とマルチレベルROIプーリングはテキスト対非テキストの識別と局在を改善するか?
- RQ3反復的バウンディングボックス投票とポスト処理は標準ベンチマークでの精度とリコールにどう影響するか?
- RQ4DeepTextはICDAR 2011と2013の堅牢テキスト検出ベンチマークで比較性能はいかなるか?
- RQ5共有CNN特徴を用いたエンドツーエンド訓練は、提案生成とテキスト検出を結合して実現可能か?
主な発見
- Inception-RPN-TCPBは hundreds の提案で高いリコールを達成し、トップ300提案を使用した特定のIoU閾値で約90%のリコールを達成。
- ATCとMLRPの組み合わせにより真陽性を増やし偽陽性を減少させる(ICDAR 2013ベースラインでTP 88.74% vs 85.61%、FP 10.38% vs 11.20%)。
- 共有CNN特徴とマルチタスク損失を用いたエンドツーエンド訓練は、提案と検出タスクの結合最適化を効果的に実現。
- DeepTextはICDAR 2011でF値0.83、ICDAR 2013で0.85を達成し、同じ訓練データ条件下でいくつかの先行法を上回る。
- 1つのGPU(K40)での画像処理時間は1.7秒。
- 反復的なバウンディングボックス投票とフィルタリングは冗長なボックスを削減し、精度を改善。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。