[論文レビュー] Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection
DMPNet は四辺形スライディングウィンドウと共有モンテカルロ法の面積計算を用いて多方向テキストを厳密に局在化し、ICDAR 2015 Challenge 4 (Incidental Scene Text) で最先端の F-measure を達成する。
Detecting incidental scene text is a challenging task because of multi-orientation, perspective distortion, and variation of text size, color and scale. Retrospective research has only focused on using rectangular bounding box or horizontal sliding window to localize text, which may result in redundant background noise, unnecessary overlap or even information loss. To address these issues, we propose a new Convolutional Neural Networks (CNNs) based method, named Deep Matching Prior Network (DMPNet), to detect text with tighter quadrangle. First, we use quadrilateral sliding windows in several specific intermediate convolutional layers to roughly recall the text with higher overlapping area and then a shared Monte-Carlo method is proposed for fast and accurate computing of the polygonal areas. After that, we designed a sequential protocol for relative regression which can exactly predict text with compact quadrangle. Moreover, a auxiliary smooth Ln loss is also proposed for further regressing the position of text, which has better overall performance than L2 loss and smooth L1 loss in terms of robustness and stability. The effectiveness of our approach is evaluated on a public word-level, multi-oriented scene text database, ICDAR 2015 Robust Reading Competition Challenge 4 "Incidental scene text localization". The performance of our method is evaluated by using F-measure and found to be 70.64%, outperforming the existing state-of-the-art method with F-measure 63.76%.
研究の動機と目的
- 多方向テキストの検出時に冗長な背景と不正確な局在化を解消する。
- テキストの固有形状に基づく四辺形スライディングウィンドウを提案し、テキストをリコールする。
- ポリゴンの重なりを迅速に計算する共有モンテ-Carlo 法を開発する。
- 逐次的な点順序付けプロトコルと、四辺形の頑健な回帰を実現する滑らかな Ln 損失を導入する。
- ICDAR 2015 Incidental Scene Text 局所化で最先端の性能を示す。
提案手法
- 中間 CNN 層に四辺形スライディングウィンドウを導入し、テキストを粗くリコールする。
- ポリゴン重なり面積を効率的に計算する共有モンテ-Carlo 法を開発する。
- 四辺形の4点を一貫した回帰のために順序付ける逐次プロトコルを適用する。
- 中心点と相対オフセットから四角形座標を予測し、2 段階の局所化を可能にする。
- 回帰のための滑らかな Ln 損失を提案し、L2 および滑らかな L1 損失に対する頑健性と安定性を向上させる。
実験結果
リサーチクエスチョン
- RQ1四辺形スライディングウィンドウは、矩形ウィンドウと比較して多方向テキスト検出のリコールと精度を向上させるか。
- RQ2共有モンテ-Carlo 計算は多数のウィンドウに対して高速かつ正確なポリゴン重なり計算を可能にするか。
- RQ3逐次的に四辺形を回帰することで、長方形ベースの手法よりもテキスト局所化を厳密化できるか。
- RQ4滑らかな Ln 損失は細粒度のテキスト局所化においてより頑健で安定しているか。
主な発見
| Algorithm | Recall (%) | Precision (%) | Hmean (%) |
|---|---|---|---|
| Baseline (SSD-VGGNet) | 25.48 | 63.25 | 36.326'],[ |
- ICDAR 2015 Challenge 4 で 70.64% の F-measure を達成し、従来の最先端 (63.76%) を上回った。
- 四辺形スライディングウィンドウは、矩形ウィンドウと比べてリコールを大幅に向上させ、背景ノイズを低減した。
- 共有モンテ-Carlo 法は高速かつ正確なポリゴン重なり計算を実現し、GPU の並列化に適している。
- 逐次的な点順序付けにより一貫した四辺形回帰を可能にし、局所化の精度を向上させた。
- 滑らかな Ln 損失は、境界回帰において L2 および滑らかな L1 損失より頑健性と安定性の利点を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。