[論文レビュー] Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes
Mask TextSpotterを導入した、Mask R-CNNに触発されたエンドツーエンドで訓練可能なネットワークは、統一されたフレームワーク内でインスタンスと文字のセグメンテーションを実行することにより、任意の形状のシーンテキストを検出・認識します。水平、向き、曲線テキストのベンチマークで最先端の結果を達成します。
Recently, models based on deep neural networks have dominated the fields of scene text detection and recognition. In this paper, we investigate the problem of scene text spotting, which aims at simultaneous text detection and recognition in natural images. An end-to-end trainable neural network model for scene text spotting is proposed. The proposed model, named as Mask TextSpotter, is inspired by the newly published work Mask R-CNN. Different from previous methods that also accomplish text spotting with end-to-end trainable deep neural networks, Mask TextSpotter takes advantage of simple and smooth end-to-end learning procedure, in which precise text detection and recognition are acquired via semantic segmentation. Moreover, it is superior to previous methods in handling text instances of irregular shapes, for example, curved text. Experiments on ICDAR2013, ICDAR2015 and Total-Text demonstrate that the proposed method achieves state-of-the-art results in both scene text detection and end-to-end text recognition tasks.
研究の動機と目的
- 水平、向き、曲線形状の irregular テキストを扱うエンドツーエンドのテキストスポッティングを動機づける。
- テキストインスタンスを検出し、文字をセグメンテーションを通じて同時に認識する統一フレームワークを開発する。
- 認識のための正確なバウンディングボックスに依存しないように、インスタンスセグメンテーションを活用する。
- カリキュラムのような凍結を伴わず、完全にエンドツーエンドの最適化を可能にする訓練手順を提供する。
- テキスト形状と語彙設定の多様なベンチマークで頑健性を示す。
提案手法
- Mask R-CNN風のアーキテクチャを特徴ピラミッドバックボーン(ResNet-50 + FPN)で適用する。
- RPNを用いてテキスト提案を生成し、RoI Alignで正確な領域特徴を得る。
- グローバルなテキストインスタンスマップに加え36個の文字確率マップと文字背景マップ(合計38チャネル出力)を生成するマスクブランチを導入する。
- RPN、Fast R-CNN、および2部構成のマスク損失(グローバルテキストと文字セグメンテーション)を組み合わせたマルチタスク損失を最適化する。
- ポリゴンを水平長方形へ変換してグローバル/キャラクタマップを作成し、推論時にはピクセル投票アルゴリズムを用いて文字領域を系列へデコードするターゲットを生成する。
- 推論ではFast R-CNNの提案を用いてグローバルおよび文字マップを作成し、輪郭抽出とピクセル投票でテキストポリゴンと系列を抽出する。辞書駆動デコードを改善するために重み付き編集距離を使用する。
実験結果
リサーチクエスチョン
- RQ1自然画像で任意の形状のテキストを同時に検出し認識する単一のエンドツーエンド訓練可能モデルは実現可能か?
- RQ2インスタンス/文字のセグメンテーションに基づくスポットは、水平・向き・曲線のテキスト全体で従来の二段階法や部分的なエンドツーエンド法を上回るか?
- RQ3不規則なテキストの認識を1-D系列ではなく2-Dセグメンテーション空間で効果的に行えるか?
- RQ4共有特徴を用いた jointly optimizing は検出と認識の精度を向上させるか?
- RQ5辞書を用いたデコードを含む/含まない標準ベンチマーク(ICDAR2013、ICDAR2015、Total-Text)での性能は?
主な発見
- ICDAR2013、ICDAR2015、Total-Textにおいて検出とエンドツーエンドのテキストスポッティングで最先端の結果を達成。
- エンドツーエンドの認識で従来法を上回り、水平/向きだけでなく曲がりテキストでも強力な性能を示す。
- テキストをインスタンスセグメンテーションとして正確に検出し、2-D文字マップで認識することが可能で、カリキュラム学習なしでエンドツーエンド訓練を実現できることを実証。
- 推論時に文字マップ上のピクセル投票スキームを用いて文字系列を再構成し、辞書ベースのデコードには重み付き編集距離を併用する。
- 現実的な速度-精度のトレードオフ(約6.9 FPS程度)を提供し、既存手法と比較して競争力のある精度を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。