QUICK REVIEW

[論文レビュー] Towards Unconstrained End-to-End Text Spotting

Siyang Qin, Alessandro Bissacco|arXiv (Cornell University)|Aug 24, 2019

Handwritten Text Recognition Techniques参考文献 58被引用数 23

ひとこと要約

本稿では、インスタンスセグメンテーションにMask R-CNNを用い、非直線的形状のテキストを検出・認識するエンドツーエンドのテキストスポットモデルを提案する。アテンションベースのデコーダーにより、補正されていない不規則なテキスト領域を直接処理する。RoIマスキングを導入し、事前学習済みOCRエンジンから得られる部分的にラベル付けされたデータを活用することで、ICDAR15では前人最高のスコアを4.6%上回り、Total-Textでは16%以上上回る性能を達成した。

ABSTRACT

We propose an end-to-end trainable network that can simultaneously detect and recognize text of arbitrary shape, making substantial progress on the open problem of reading scene text of irregular shape. We formulate arbitrary shape text detection as an instance segmentation problem; an attention model is then used to decode the textual content of each irregularly shaped text region without rectification. To extract useful irregularly shaped text instance features from image scale features, we propose a simple yet effective RoI masking step. Additionally, we show that predictions from an existing multi-step OCR engine can be leveraged as partially labeled training data, which leads to significant improvements in both the detection and recognition accuracy of our model. Our method surpasses the state-of-the-art for end-to-end recognition tasks on the ICDAR15 (straight) benchmark by 4.6%, and on the Total-Text (curved) benchmark by more than 16%.

研究の動機と目的

既存の手法が困難としている、不規則な形状のテキストに対するエンドツーエンドのテキストスポットのオープンな問題に取り組む。
検出と認識の間で特徴量の補正を必要としないように、補正されていないテキスト特徴量を直接認識器に供給することを可能にする。
既存のマルチステップOCRエンジンから自動的に生成された部分的にラベル付けされたデータを活用して、モデル性能を向上させる。
検出と認識を共有する特徴量で同時に最適化する、柔軟でエンドツーエンドで学習可能なアーキテクチャを開発する。

提案手法

任意形状のテキストインスタンスの軸に平行なバウンディングボックスとセグメンテーションマスクを予測するために、検出器としてMask R-CNNを用いる。
非補正されたマスク処理済みテキスト特徴量から直接テキストを認識するために、シーケンス・ツー・シーケンスのアテンションデコーダーを採用する。
不規則な形状のテキストインスタンス特徴量を特徴マップから抽出するために、RoIマスキングのステップを導入し、補正を経由せずに直接認識を可能にする。
事前学習済みのマルチステップOCRエンジン（例：Google Cloud Vision API）から得られる部分的にラベル付けされたデータを活用して、認識の学習をブートストラップする。
完全ラベル付きデータと部分的にラベル付けされたデータの両方を用いて、検出と認識のブランチを同時に最適化する単一ステップの学習戦略を採用する。
検出ブランチと認識ブランチの両方に共通のCNNバックボーンを採用することで、特徴量学習の向上と計算効率の向上を図る。

実験結果

リサーチクエスチョン

RQ1幾何学的補正を経ずに、任意形状のテキストを検出し、認識できるエンドツーエンドモデルは可能か？
RQ2既存のOCRエンジンから得られる部分的にラベル付けされたデータを用いることで、エンドツーエンドのテキストスポットモデルの性能にどのような影響を与えるか？
RQ3従来の補正手法と比較して、RoIマスキングは不規則な形状のテキスト認識精度を向上させるか？
RQ4検出と認識ブランチの共同学習は、検出のみを学習する場合よりも、特徴表現を向上させるか？

主な発見

ICDAR15（直線テキスト）ベンチマークではエンドツーエンドFスコアが59.5%に達し、前人最高を4.6%上回った。
Total-Text（曲線テキスト）ベンチマークでは、前人最高を16%以上上回り、不規則な形状への一般化性能が顕著に優れていることを示した。
部分的にラベル付けされたデータの活用により、認識性能が顕著に向上した。これは、検出ブランチがそのデータに直接学習されていなくても同様に有効であった。
部分的にラベル付けされたデータを用いた場合、ResNet-50バックボーンを用いた際、エンドツーエンドAPが3.3ポイント向上した。
単一ステップ学習は、検出およびエンドツーエンド評価の両方で二段階学習を上回り、より良い最適化と特徴量学習が可能であることを示唆した。
推論時間は1枚あたり210ms（ResNet-50バックボーン時）であり、認識ブランチによるオーバーヘッドはわずか30msにとどまり、計算効率が優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。