[論文レビュー] Single Shot Text Detector with Regional Attention
単一ショットのテキスト検出器(SSDベース)とText Attention Module(TAM)およびHierarchical Inception Module(HIM)が語彙レベルのバウンディングボックスを直接出力し、ICDAR 2013/2015およびCOCO-Textで最先端の結果を達成します。
We present a novel single-shot text detector that directly outputs word-level bounding boxes in a natural image. We propose an attention mechanism which roughly identifies text regions via an automatically learned attentional map. This substantially suppresses background interference in the convolutional features, which is the key to producing accurate inference of words, particularly at extremely small sizes. This results in a single model that essentially works in a coarse-to-fine manner. It departs from recent FCN- based text detectors which cascade multiple FCN models to achieve an accurate prediction. Furthermore, we develop a hierarchical inception module which efficiently aggregates multi-scale inception features. This enhances local details, and also encodes strong context information, allow- ing the detector to work reliably on multi-scale and multi- orientation text with single-scale images. Our text detector achieves an F-measure of 77% on the ICDAR 2015 bench- mark, advancing the state-of-the-art results in [18, 28]. Demo is available at: http://sstd.whuang.org/.
研究の動機と目的
- 自然画像におけるスケールと向きが異なる語彙レベルのテキスト検出の課題に対処する。
- 単一パスで直接語彙のバウンディングボックスを提供することにより、マルチステージのボトムアップ処理を排除する。
- マルチスケールおよび多向きテキストの特徴表現を専門的なモジュールを用いて強化する。
- アテンション機構を介して rough text regions を学習させるためのテキスト特化の監視信号を導入する。
- 実用的な単一ショットのテキスト検出を可能にする頑健性と速度を向上させる。)
提案手法
- Text Attention Module (TAM) を導入し、ピクセル単位のテキストマスクを学習し、Aggregated Inception Features (AIFs) にテキスト領域のアテンションを注入する。
- Hierarchical Inception Module (HIM) を開発し、マルチスケールの inception Features を集約し、層間で情報を融合してよりリッチな AIFs を形成する。
- TAM と HIM を SSD フレームワークに統合し、ワードレベルのバウンディングボックスを一発で生成する(単純な NMS を用いる)。
- ピクセル単位のテキストマスク損失を補助監督としてエンドツーエンドに訓練し、アテンション学習を誘導する。
- 空間的位置ごとに N 個の語彙バウンディングボックスを、様々なスケールとアスペクト比を持つデフォルトボックスのマルチスケールセットを用いて予測し、方向パラメータを含む。
- ICDAR 2013、ICDAR 2015、COCO-Text の評価を通じて、最先端の性能と効率を実証する。
実験結果
リサーチクエスチョン
- RQ1単一ショットの SSD ベース検出器を、ポスト処理なしで直接語彙レベルのバウンディングボックスを予測するテキスト特化モジュールで拡張できるか。
- RQ2TAM と HIM は自然シーンのマルチスケールおよびマルチオリエンテーションのテキスト検出において Recall と Precision を改善するか。
- RQ3提案手法は精度と速度の観点で、標準ベンチマーク(ICDAR 2013/2015、COCO-Text)でどのように評価されるか。
主な発見
- ICDAR 2013 の F-measure が 0.87、ICDAR 2015 が 0.77 の最先端を達成。
- COCO-Text で F スコア 0.37 を達成し、一般化能力の高さを示す。
- 単一ショット検出器は 704x704 入力で 0.13 秒/画像のスピードを実現(1 GPU)で動作。
- TAM と HIM は独立して Recall と Precision を改善し、TAM+HIM が全体の F-measure(ICDAR 2013 で 0.87)で最良を提供。
- 小さな多スケール・多向きテキストに対して複雑なポスト処理なしで語彙レベルの高い精度を維持。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。