[論文レビュー] Shape Robust Text Detection with Progressive Scale Expansion Network
PSENet はテキストの任意の形状を検出するために、各テキストインスタンスに対して複数のカーネルスケールを生成し、それらを BFS で逐次拡張して緊密に配置されたテキストを分離し、 curve-text ベンチマーク(例:CTW1500)で最先端の結果を達成し、Total-Text および ICDAR データセットでも高い性能を発揮します。
Scene text detection has witnessed rapid progress especially with the recent development of convolutional neural networks. However, there still exists two challenges which prevent the algorithm into industry applications. On the one hand, most of the state-of-art algorithms require quadrangle bounding box which is in-accurate to locate the texts with arbitrary shape. On the other hand, two text instances which are close to each other may lead to a false detection which covers both instances. Traditionally, the segmentation-based approach can relieve the first problem but usually fail to solve the second challenge. To address these two challenges, in this paper, we propose a novel Progressive Scale Expansion Network (PSENet), which can precisely detect text instances with arbitrary shapes. More specifically, PSENet generates the different scale of kernels for each text instance, and gradually expands the minimal scale kernel to the text instance with the complete shape. Due to the fact that there are large geometrical margins among the minimal scale kernels, our method is effective to split the close text instances, making it easier to use segmentation-based methods to detect arbitrary-shaped text instances. Extensive experiments on CTW1500, Total-Text, ICDAR 2015 and ICDAR 2017 MLT validate the effectiveness of PSENet. Notably, on CTW1500, a dataset full of long curve texts, PSENet achieves a F-measure of 74.3% at 27 FPS, and our best F-measure (82.2%) outperforms state-of-art algorithms by 6.6%. The code will be released in the future.
研究の動機と目的
- 自然シーンにおける任意の形状のテキストを検出する挑戦に対処する。
- セグメンテーションの利点を維持しつつインスタンス分離を可能にする、カーネルベースのフレームワークを提案する。
- 最小のカーネルから完全なテキスト形状を再構成する、漸進的なスケール拡張アルゴリズムを開発する。
- マルチスケールカーネル監督に適したラベル生成と損失設計を提供する。
- 曲線テキスト、複数方向、および多言語テキストのベンチマークに対する堅牢性を実証する。
提案手法
- バックボーン: FPN を備えた ResNet でマルチスケール特徴を1024チャネルのマップFに融合する。
- 漸進的に大きくなるカーネルに対応するS1, ..., Snというn個のセグメンテーション出力を生成する。
- 連結成分を介して最小カーネルから検出を初期化し、BFS風のスケール拡張で拡張する。
- 元のテキストポリゴンをVattiクリッピングを用いて縮小し、G1,...,Gnのグラウンドトゥルースマスクを作成するラベル生成。
- 損失: 完全テキスト損失 Rc と 縮小テキスト損失 Rs の混合と、クラス不均衡に対処するためのDice係数、および Rc のための Online Hard Example Mining (OHEM)。
実験結果
リサーチクエスチョン
- RQ1セグメンテーションベースのアプローチを強化して、任意の形状のテキストを正確に検出し、密接に配置されたインスタンスを分離できるか。
- RQ2複数のカーネルスケールからの漸進的なスケール拡張は、局所化の精度を犠牲にすることなくインスタンス分離を改善しますか。
- RQ3マルチカーネル監督と BFS スタイルの拡張は、曲線テキストのベンチマークおよび多言語データセットでの性能にどのように影響しますか。
主な発見
- PSENet は curve-text ベンチマークで高い F 値を達成し、特に CTW1500 で 82.2% F(単一スケールバックボーンバリアント)、報告された設定で 27 FPS で 74.3% F。
- CTW1500 では、PSENet が F-measure で最先端を 6.6% 上回る。
- Total-Text では、PSENet が F-measure 80.9% を達成(単一スケール、外部データ変種がより高い精度を提供)。
- より深いバックボーン(ResNet50/101/152)で性能が向上し、ResNet152を用いた IC17-MLT で 72.13% F に到達。
- 漸進的なスケール拡張は、近接して配置されたテキストインスタンスの効果的な分離と、 ICDAR 2015, ICDAR 2017 MLT, CTW1500, Total-Text にわたる曲線テキストの堅牢な処理を実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。