QUICK REVIEW

[論文レビュー] Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation

Pengyuan Lyu, Cong Yao|arXiv (Cornell University)|Feb 25, 2018

Handwritten Text Recognition Techniques参考文献 37被引用数 42

ひとこと要約

コーナーポイントを用いてテキストを局在化し、位置に敏感なセグメンテーションで候補ボックスをスコアリングする統一的なCNNベースの検出器。任意の方向に配置された長いテキストや多言語テキストを重い後処理なしで頑健に検出できる。

ABSTRACT

Previous deep learning based state-of-the-art scene text detection methods can be roughly classified into two categories. The first category treats scene text as a type of general objects and follows general object detection paradigm to localize scene text by regressing the text box locations, but troubled by the arbitrary-orientation and large aspect ratios of scene text. The second one segments text regions directly, but mostly needs complex post processing. In this paper, we present a method that combines the ideas of the two types of methods while avoiding their shortcomings. We propose to detect scene text by localizing corner points of text bounding boxes and segmenting text regions in relative positions. In inference stage, candidate boxes are generated by sampling and grouping corner points, which are further scored by segmentation maps and suppressed by NMS. Compared with previous methods, our method can handle long oriented text naturally and doesn't need complex post processing. The experiments on ICDAR2013, ICDAR2015, MSRA-TD500, MLT and COCO-Text demonstrate that the proposed algorithm achieves better or comparable results in both accuracy and efficiency. Based on VGG16, it achieves an F-measure of 84.3% on ICDAR2015 and 81.5% on MSRA-TD500.

研究の動機と目的

任意の向きと可変のアスペクト比を持つシーンテキストの頑健な検出を動機づける。
コーナーポイントの局在化と領域ベースのセグメンテーションを組み合わせて、精度と効率を向上させる。
セグメンテーションマップで候補ボックスをスコアリングすることにより、重い後処理を回避する。
検出とセグメンテーションタスクの共同最適化のためのエンドツーエンド学習を可能にする。

提案手法

マルチスケールの CNN バックボーンにわたってデフォルトボックスを介してコーナーポイント（左上、右上、右下、左下）を検出する。
検出されたコーナーポイントをサンプリングして候補境界ボックスにグルーピングすることで、回転テキストの提案を生成する。
位置感知型セグメンテーションマップと Rotated Position-Sensitive ROI Average pooling で候補ボックスをスコアリングする。
コーナーポイント検出、局在化、セグメンテーションに対するジョイント損失で訓練する（L = L_conf/N_c + λ1 L_loc/N_c + λ2 L_seg/N_s）。
スコアリング時に任意の方向に対応する Rotated Position-Sensitive ROI pooling モジュールを採用する。
SynthText の事前学習を用いたエンドツーエンド学習を適用し、次にターゲットデータセットでファインチューニングを行う。

実験結果

リサーチクエスチョン

RQ1コーナーポイント局在化と領域ベースのセグメンテーションを組み合わせることで、多方向のテキストに対して直接回帰法や純粋なセグメンテーション法を上回ることができるだろうか？
RQ2提案された Rotated Position-Sensitive ROI pooling は回転テキスト提案のスコアリングにどのような影響を与えるか？
RQ3コーナー検出とセグメンテーションの共同最適化が、ベンチマーク全体で精度と速度に与える影響は何か？
RQ4重い後処理なしで長いテキスト行や多言語テキストに対して方法はスケーラブルか？

主な発見

データセット	F値
ICDAR2015	84.3%
MSRA-TD500	81.5%
MLT	72.4%

提案手法を用いた ICDAR2015 で F-measure 84.3%、MSRA-TD500 で 81.5%、MLT で 72.4%。
単一スケールの ICDAR2015 結果: 当社の手法で F-measure 80.7%（マルチスケールでは 84.3%）。
長い向きのテキストと多言語テキスト検出は MSRA-TD500 で最先端の性能を達成し、MLT および COCO-Text で競争力のある結果を示す。
Titan X GPU で秒あたり 10.4 枚以上を処理（512x512）し、競争力のある効率を示している。
ベースラインの回帰ベースの検出器はコーナーポイント法に劣る（例: 53.3 F-measure 対 80.7 の ICDAR2015）。
このアプローチは強い一般化性能を示し、COCO-Text での訓練なしで 42.5% F-measure を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。