[論文レビュー] R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection
R2CNNはFaster R-CNNを拡張し、軸に整列したRPNボックスと方向認識プーリングを用いて任意の向きのシーンテキストを検出し、その後傾斜ボックス回帰とNMSを適用します。
In this paper, we propose a novel method called Rotational Region CNN (R2CNN) for detecting arbitrary-oriented texts in natural scene images. The framework is based on Faster R-CNN [1] architecture. First, we use the Region Proposal Network (RPN) to generate axis-aligned bounding boxes that enclose the texts with different orientations. Second, for each axis-aligned text box proposed by RPN, we extract its pooled features with different pooled sizes and the concatenated features are used to simultaneously predict the text/non-text score, axis-aligned box and inclined minimum area box. At last, we use an inclined non-maximum suppression to get the detection results. Our approach achieves competitive results on text detection benchmarks: ICDAR 2015 and ICDAR 2013.
研究の動機と目的
- 自然場景内の任意の向きを持つテキストを検出する。
- さまざまな向きをカバーするために、軸に整列した提案を活用する。
- マルチサイズのプーリング特徴を結合して、テキスト/非テキストと向きを予測する。
- 正確なテキスト定位のために傾斜最小外接ボックスを生成する。
提案手法
- Region Proposal Network (RPN) を使用して、異なる向きの軸に整列したテキスト提案を生成する。
- 各軸に整列した提案に対して、複数のプーリングサイズで特徴を抽出し、それらを結合する。
- 結合特徴から、テキスト/非テキストスコア、軸に整列した境界ボックス、および傾斜最小面積ボックスを予測する。
- 傾斜NMSを適用して最終検出を得る。
実験結果
リサーチクエスチョン
- RQ1軸に整列したRPN提案と向き特異的プーリングは、任意の向きを持つテキストを信頼性高く検出できるか。
- RQ2マルチサイズのプーリング特徴を結合することは、テキスト/非テキストの分類と向き回帰を改善するか。
- RQ3回転したテキストボックスの局在精度を向上させるために、傾斜NMSは有効か。
主な発見
- ICDAR 2015およびICDAR 2013のベンチマークで競争力のある結果を達成。
- Faster R-CNNフレームワーク内で回転テキスト検出の有効性を実証。
- 向きの変化を捉えるための結合されたマルチサイズプール特徴の利点を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。