Skip to main content
QUICK REVIEW

[論文レビュー] Sliding Line Point Regression for Shape Robust Scene Text Detection

Yixing Zhu, Jun Du|arXiv (Cornell University)|Jan 30, 2018
Handwritten Text Recognition Techniques参考文献 23被引用数 26
ひとこと要約

本稿では、テキスト境界に沿った水平および垂直のスライディング線に沿って点を回帰することで、任意の形状および曲がったシーンテキストを検出する新規手法であるスライディングラインポイント回帰(SLPR)を提案する。長方形の事前知識を活用し、各点に対して1つの座標のみを回帰することで、パラメータ数を削減し、ロバスト性を向上させ、LSTMを用いないままにICDAR2015でSOTA、CTW1500でSOTAの性能を達成した。

ABSTRACT

Traditional text detection methods mostly focus on quadrangle text. In this study we propose a novel method named sliding line point regression (SLPR) in order to detect arbitrary-shape text in natural scene. SLPR regresses multiple points on the edge of text line and then utilizes these points to sketch the outlines of the text. The proposed SLPR can be adapted to many object detection architectures such as Faster R-CNN and R-FCN. Specifically, we first generate the smallest rectangular box including the text with region proposal network (RPN), then isometrically regress the points on the edge of text by using the vertically and horizontally sliding lines. To make full use of information and reduce redundancy, we calculate x-coordinate or y-coordinate of target point by the rectangular box position, and just regress the remaining y-coordinate or x-coordinate. Accordingly we can not only reduce the parameters of system, but also restrain the points which will generate more regular polygon. Our approach achieved competitive results on traditional ICDAR2015 Incidental Scene Text benchmark and curve text detection dataset CTW1500.

研究の動機と目的

  • 既存の四角形ベースの手法が正確に表現できない、任意の向きおよび曲がったテキストの検出という課題に対処すること。
  • 境界長方形からの幾何的制約を用いて、各点に対して1つの座標のみを回帰することで、モデルの複雑さと冗長性を低減すること。
  • スライディングラインルールによる回帰点間の構造的関係を強制することで、ポリゴンの規則性と検出のロバスト性を向上させること。
  • LSTMのような複雑な再帰モジュールに依存せずに、標準的および曲がったテキスト検出ベンチマークでSOTA性能を達成すること。
  • より広範な展開を可能にするために、Faster R-CNN や R-FCN といった標準的な2段階検出器との互換性を確保すること。

提案手法

  • SLPRは、テキストラインの軸に揃った最小外接長方形を生成するためのリージョンプロポーザルネットワーク(RPN)を用いる。
  • スライディングライン機構を導入:垂直線は長方形の水平スパンに沿ってスライドし、水平線は垂直スパンに沿ってスライドすることで、テキスト境界上の候補点を生成する。
  • 各点について、1つの座標(x または y)のみを回帰し、もう一方の座標は長方形の位置から計算することで、冗長性を低減する。
  • アスペクト比に応じて動的に重み付けされる損失関数を採用し、$\lambda_{hw} = 4$ および $k = 0.8$ を用いて水平方向と垂直方向のサンプルのバランスをとる。
  • 点ベースの修復戦略(PLS)を用いて長方形と回帰された点を組み合わせることでポリゴンを再構築し、RNN やアテンションモジュールの必要性を回避する。
  • Faster R-CNN や R-FCN と互換性があり、バックボーンにResNet-50を用い、標準的なトレーニング設定を採用する。

実験結果

リサーチクエスチョン

  • RQ1スライディングラインに基づくシンプルで微分可能な回帰戦略は、任意形状および曲がったテキストの検出を改善できるか?
  • RQ2境界長方形からの幾何的制約は、精度を損なわずに回帰回数を削減できるか?
  • RQ3RNN やアテンションモジュールを排除し、構造的な点回帰に置き換えることで、曲がったテキストにおける一般化性能と性能が向上するか?
  • RQ4提案手法は、データ拡張を用いずに、標準的および曲がったテキストベンチマークでSOTA結果を達成できるか?
  • RQ5非最大抑制(NMS)の閾値の選択が、さまざまなテキスト形状を含むデータセットでの性能に与える影響は何か?

主な発見

  • ICDAR2015のインシデントシーンテキストベンチマークでは、SLPRは86.7%という競争力のあるHmeanを達成し、多数の先行手法を上回った。
  • CTW1500の曲がったテキストデータセットでは、SLPRはHmean 74.8%を達成し、CTD+TLOC手法を5.3ポイント上回った。
  • LSTMベースのTLOCモジュールを一切使用しなくても、SLPRはCTD+TLOCより1.4ポイント高いHmeanを達成し、幾何的設計の有効性を示した。
  • PNMS(確率的NMS)はICDAR2015で標準NMSをわずかに上回ったが、CTW1500ではIoU閾値0.3の標準NMSが最良の結果を出した。
  • マルチスケール推論により、ICDAR2015ではHmeanが約1%向上し、スケール適合の利点を確認した。
  • アブレーションスタディの結果、長辺のみを用いたPLSよりも、全点を用いたポリゴン修復(BHVP)の方が優れた性能を示したが、PLSでも強力な性能が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。