Skip to main content
QUICK REVIEW

[論文レビュー] Pyramid Mask Text Detector

Jingchao Liu, Xuebo Liu|arXiv (Cornell University)|Mar 28, 2019
Handwritten Text Recognition Techniques参考文献 45被引用数 53
ひとこと要約

PMTDはソフトパイラミッドテキストマスクと平面クラスタリング法を導入し、2Dソフトマスクを正確な3Dピラミッドテキストボックスへ変換、ICDARデータセットで最先端の結果を達成。境界の誤ラベリングと境界ボックス依存を減らすことで、従来のMask R-CNNベース手法を上回る。

ABSTRACT

Scene text detection, an essential step of scene text recognition system, is to locate text instances in natural scene images automatically. Some recent attempts benefiting from Mask R-CNN formulate scene text detection task as an instance segmentation problem and achieve remarkable performance. In this paper, we present a new Mask R-CNN based framework named Pyramid Mask Text Detector (PMTD) to handle the scene text detection. Instead of binary text mask generated by the existing Mask R-CNN based methods, our PMTD performs pixel-level regression under the guidance of location-aware supervision, yielding a more informative soft text mask for each text instance. As for the generation of text boxes, PMTD reinterprets the obtained 2D soft mask into 3D space and introduces a novel plane clustering algorithm to derive the optimal text box on the basis of 3D shape. Experiments on standard datasets demonstrate that the proposed PMTD brings consistent and noticeable gain and clearly outperforms state-of-the-art methods. Specifically, it achieves an F-measure of 80.13% on ICDAR 2017 MLT dataset.

研究の動機と目的

  • 自然シーンでの二値マスクを超える堅牢な四辺形文字検出を動機付ける。
  • Mask R-CNNベース手法における境界ラベリングの不正確さと境界ボックス予測に起因する誤差伝搬に対処する。
  • 文字インスタンスの形状と位置情報を符号化するソフトパイラミッドラベリングを提案する。
  • 3Dエンコードされたマスク点から正確なピラミッド(文字ボックス)を回帰する平面クラスタリングアルゴリズムを導入する。

提案手法

  • 二値テキストマスクをソフトパイラルミッドラベルに置換し、ピクセルスコアを四辺形内の距離ベースのピラミッド幾何で計算する。
  • テキスト領域の中心を頂点としスコアを1、境界をピラミッドの底面として形状と位置を符号化する。
  • 受容野を拡張しチェッカーボード状アーティファクトを減らすために、拡張畳み込みと双線形アップサンプリングでマスクヘッドを改良する。
  • ソフトパイラミッドマスクのピクセル単位L1損失で訓練し、境界ラベリングの誤りを減らし回帰の安定性を向上させる。
  • テスト時には2Dソフトマスクを3D座標点(x,y,z)として再解釈し、平面クラスタリングアルゴリズムを適用して4つの支持平面を適合させ、z=0との交差が出力テキストボックスとなる下部面を生成する。
  • ベースラインの改善にはデータ拡張と文字統計に合わせたRPNアンカーの調整を含む。

実験結果

リサーチクエスチョン

  • RQ1ソフトパイラミッドラベリングはMask R-CNNフレームワークにおける二値マスクより四辺形文字の形状をより良く捉えられるか。
  • RQ23D埋め込みテキストマスクに対する平面クラスタリングは2D境界ボックス推定や境界ボックスに制限されたマスクより正確な文字ボックスを得られるか。
  • RQ3PMTDは標準ベンチマーク(ICDAR 2017 MLT、ICDAR 2015、ICDAR 2013)で最先端手法と比較してどの程度の性能か。

主な発見

手法適合率再現率F値
Baseline84.7270.3776.88
PMTD85.1572.7778.48
PMTD ∗84.4276.2580.13
  • PMTDはICDAR 2017 MLTでF-measureが最先端(マルチスケールテスト時80.13)。
  • PMTDはBaseline Mask R-CNNよりICDAR 2017 MLTでF-measureが約1.6ポイント改善し、ICDAR 2015およびICDAR 2013データセットでも一貫した改善を示す。
  • ソフトパイラミッドラベルは境界の誤ラベリングを減らし境界の精度を改善し、特に高いIoU閾値で効果を示す。
  • 平面クラスタリングは3D表現から回帰することでより正確な文字ボックスを得られ、境界ボックスの不正確さに頑健であることを示す。
  • PMTDはICDARベンチマーク全体で複数のベースラインと従来の最先端手法を凌駕し、IoUが高い閾値(例: IoU 0.8)で大幅な改善を示す。
  • アブレーション研究はソフトラベリングと平面クラスタリングが全体性能に寄与することを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。