Skip to main content
QUICK REVIEW

[論文レビュー] R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection

Yingying Jiang, Xiangyu Zhu|arXiv (Cornell University)|Jun 29, 2017
Handwritten Text Recognition Techniques参考文献 23被引用数 490
ひとこと要約

R2CNNはFaster R-CNNを拡張し、軸に整列したRPNボックスと方向認識プーリングを用いて任意の向きのシーンテキストを検出し、その後傾斜ボックス回帰とNMSを適用します。

ABSTRACT

In this paper, we propose a novel method called Rotational Region CNN (R2CNN) for detecting arbitrary-oriented texts in natural scene images. The framework is based on Faster R-CNN [1] architecture. First, we use the Region Proposal Network (RPN) to generate axis-aligned bounding boxes that enclose the texts with different orientations. Second, for each axis-aligned text box proposed by RPN, we extract its pooled features with different pooled sizes and the concatenated features are used to simultaneously predict the text/non-text score, axis-aligned box and inclined minimum area box. At last, we use an inclined non-maximum suppression to get the detection results. Our approach achieves competitive results on text detection benchmarks: ICDAR 2015 and ICDAR 2013.

研究の動機と目的

  • 自然場景内の任意の向きを持つテキストを検出する。
  • さまざまな向きをカバーするために、軸に整列した提案を活用する。
  • マルチサイズのプーリング特徴を結合して、テキスト/非テキストと向きを予測する。
  • 正確なテキスト定位のために傾斜最小外接ボックスを生成する。

提案手法

  • Region Proposal Network (RPN) を使用して、異なる向きの軸に整列したテキスト提案を生成する。
  • 各軸に整列した提案に対して、複数のプーリングサイズで特徴を抽出し、それらを結合する。
  • 結合特徴から、テキスト/非テキストスコア、軸に整列した境界ボックス、および傾斜最小面積ボックスを予測する。
  • 傾斜NMSを適用して最終検出を得る。

実験結果

リサーチクエスチョン

  • RQ1軸に整列したRPN提案と向き特異的プーリングは、任意の向きを持つテキストを信頼性高く検出できるか。
  • RQ2マルチサイズのプーリング特徴を結合することは、テキスト/非テキストの分類と向き回帰を改善するか。
  • RQ3回転したテキストボックスの局在精度を向上させるために、傾斜NMSは有効か。

主な発見

  • ICDAR 2015およびICDAR 2013のベンチマークで競争力のある結果を達成。
  • Faster R-CNNフレームワーク内で回転テキスト検出の有効性を実証。
  • 向きの変化を捉えるための結合されたマルチサイズプール特徴の利点を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。