[論文レビュー] PAN++: Towards Efficient and Accurate End-to-End Spotting of Arbitrarily-Shaped Text
PAN++ は、テキストを中央のカーネルとその周囲の周辺画素で表す新しいカーネル表現を用いて、任意形状のテキスト検出のための効率的で高精度なエンドツーエンドフレームワークを提案する。完全畳み込みアーキテクチャと軽量なコンponents(スタックされた特徴マップ強化モジュール、画素集約に配慮した検出ヘッド、マスク付きRoIベースの認識ヘッド)を活用することで、Total-Textで29.2 FPSで64.9のF-measureを達成し、速度と精度の両面で先行手法を上回った。
Scene text detection and recognition have been well explored in the past few years. Despite the progress, efficient and accurate end-to-end spotting of arbitrarily-shaped text remains challenging. In this work, we propose an end-to-end text spotting framework, termed PAN++, which can efficiently detect and recognize text of arbitrary shapes in natural scenes. PAN++ is based on the kernel representation that reformulates a text line as a text kernel (central region) surrounded by peripheral pixels. By systematically comparing with existing scene text representations, we show that our kernel representation can not only describe arbitrarily-shaped text but also well distinguish adjacent text. Moreover, as a pixel-based representation, the kernel representation can be predicted by a single fully convolutional network, which is very friendly to real-time applications. Taking the advantages of the kernel representation, we design a series of components as follows: 1) a computationally efficient feature enhancement network composed of stacked Feature Pyramid Enhancement Modules (FPEMs); 2) a lightweight detection head cooperating with Pixel Aggregation (PA); and 3) an efficient attention-based recognition head with Masked RoI. Benefiting from the kernel representation and the tailored components, our method achieves high inference speed while maintaining competitive accuracy. Extensive experiments show the superiority of our method. For example, the proposed PAN++ achieves an end-to-end text spotting F-measure of 64.9 at 29.2 FPS on the Total-Text dataset, which significantly outperforms the previous best method. Code will be available at: https://git.io/PAN.
研究の動機と目的
- 自然画像における任意形状のテキストの効率的で高精度なエンドツーエンド検出の課題に取り組む。
- 四角形、画素単位、bbox-画素といった従来のテキスト表現の限界を克服するため、曲がった文字列や隣接する文字列に対応できるカーネルベースの表現を導入する。
- リアルタイム推論を実現しながらも高い精度を維持できる、ワンステージで完全畳み込み型のパイプラインを設計する。
- 合成データと実世界データの両方で学習することで、データセット間での一般化性能を向上させ、強力なクロスデータセット性能を達成する。
提案手法
- テキストラインを中央のカーネル(テキストコア)とその周囲の周辺画素で表すカーネル表現を提案し、曲がった文字列や隣接する文字列に対してタイトで柔軟な境界予測を可能にする。
- マルチスケール特徴を効率的に統合するため、スタックされた特徴マップ強化モジュール(FPEMs)を用いた特徴強化ネットワークを設計する。
- 1回の順伝播でカーネル領域と周辺画素領域を予測できる、画素集約(PA)を組み込んだ軽量な検出ヘッドを実装する。
- カーネル領域に注目し、背景ノイズを抑制するマスク付きRoIベースの認識ヘッドを導入し、認識精度を向上させる。
- 1つの完全畳み込みネットワークでエンドツーエンドパイプラインを学習し、GPU上でリアルタイム推論を可能にする。
- 認識ヘッドの並列化により速度最適化を実現し、実際の推論時間を半分に削減する。
![Figure 1: Comparisons of different scene text representations. (a) The quadrilateral representation [ 9 , 3 , 7 ] fail to locate curved text lines. (b) The pixel-wise representation [ 10 ] is not able to separate adjacent text lines. (c) Although the bounding-box-pixel (bbox-pixel) representation [](https://ar5iv.labs.arxiv.org/html/2105.00405/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1カーネルベースの表現は、ワンステージでエンドツーエンド予測が可能な状態で、任意形状および隣接するテキストラインを効果的にモデル化できるか?
- RQ2四角形、画素単位、bbox-画素といった従来の表現と比較して、提案手法のカーネル表現は精度と効率の面でどのように優れているか?
- RQ3完全畳み込み型で軽量なアーキテクチャは、リアルタイム推論速度を維持しながら検出と認識の両面で最先端の性能を達成できるか?
- RQ4合成データと実世界ベンチマークを含む多様なデータセット間で、モデルの一般化性能はどの程度高いか?
- RQ5システムの主な失敗モードは何か。より良いデータやアーキテクチャの改善により、それらはどのように緩和できるか?
主な発見
- PAN++ は Total-Text データセットで29.2 FPSで64.9のF-measureを達成し、エンドツーエンドのテキストスポットリング性能が、以前の最先端手法を大きく上回った。
- SynthText のみで学習したモデルは、Total-Text で51.5のF-measure、IC15 で53.9のF-measureを達成し、強力なゼロショット一般化能力を示した。
- テキストラインレベルでのクロスデータセット評価において、すべてのモデルが78以上のF-measureを達成し、CTW1500→MSRA-TD500で79.7、MSRA-TD500→CTW1500で78.2を記録した。これは強力な一般化性能を示している。
- 認識ヘッドは総推論時間のほぼ半分を占めており、並列化により遅延が半分に削減され、リアルタイムデプロイメントが可能になった。
- 失敗事例には、文字間隔が広いケース、テキストに似たが実際にはテキストでない領域、装飾的なフォントが含まれる。これらの問題は主にデータのスパarsityと言語的文脈の欠如に起因すると考えられる。
- カーネル表現により、曲がった文字列や隣接する文字列のタイトで正確なセグメンテーションが可能となり、四角形表現や画素単位表現よりも柔軟性と分離能力に優れた性能を発揮した。
![Figure 2: End-to-end text spotting F-measure and inference speed on Total-Text. Our PAN++ has extreme advantages compared with counterparts. “PAN++ 736” (the short size of the input image being 736 pixels) is 5.0 points better than ABCNet [ 22 ] and the inference speed is faster. “PAN++ 512” execute](https://ar5iv.labs.arxiv.org/html/2105.00405/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。