Skip to main content
QUICK REVIEW

[論文レビュー] Detecting Curve Text in the Wild: New Dataset and New Solution

Yuliang Liu, Lianwen Jin|arXiv (Cornell University)|Dec 6, 2017
Handwritten Text Recognition Techniques参考文献 26被引用数 212
ひとこと要約

本論文は曲線テキストデータセット CTW1500 を導入し、曲線テキストを直接検出するポリゴンベースの Curve Text Detector (CTD) と再帰的オフセット接続 (TLOC) を備えた手法を提案する。これにより従来手法を上回る。

ABSTRACT

Scene text detection has been made great progress in recent years. The detection manners are evolving from axis-aligned rectangle to rotated rectangle and further to quadrangle. However, current datasets contain very little curve text, which can be widely observed in scene images such as signboard, product name and so on. To raise the concerns of reading curve text in the wild, in this paper, we construct a curve text dataset named CTW1500, which includes over 10k text annotations in 1,500 images (1000 for training and 500 for testing). Based on this dataset, we pioneering propose a polygon based curve text detector (CTD) which can directly detect curve text without empirical combination. Moreover, by seamlessly integrating the recurrent transverse and longitudinal offset connection (TLOC), the proposed method can be end-to-end trainable to learn the inherent connection among the position offsets. This allows the CTD to explore context information instead of predicting points independently, resulting in more smooth and accurate detection. We also propose two simple but effective post-processing methods named non-polygon suppress (NPS) and polygonal non-maximum suppression (PNMS) to further improve the detection accuracy. Furthermore, the proposed approach in this paper is designed in an universal manner, which can also be trained with rectangular or quadrilateral bounding boxes without extra efforts. Experimental results on CTW-1500 demonstrate our method with only a light backbone can outperform state-of-the-art methods with a large margin. By evaluating only in the curve or non-curve subset, the CTD + TLOC can still achieve the best results. Code is available at https://github.com/Yuliang-Liu/Curve-Text-Detector.

研究の動機と目的

  • 野外の曲線形テキストの読解を促進し、データセットの不足に対処する。
  • ラベリングを容易にするためにポリゴン注釈を含む曲線テキストデータセット CTW1500 を作成する。
  • ポストホックなグルーピングを経ずに曲線テキストを直接検出する直接的なポリゴンベース検出器(CTD)を提案する。
  • 平滑な局在化のために点オフセット間の逐次文脈を捉える TLOC を導入する。
  • 長方形、四辺形、または曲線注釈に適応する普遍的なトレーニングを提供する。

提案手法

  • 14 の曲線点と外接矩形パラメータを回帰するポリゴンベースのテキスト検出器 CTD を提案する。
  • 学習安定性を高めるために回帰を幅オフセットと高さオフセットに分割する。
  • 点オフセット間の逐次文脈をモデル化するために BLSTM を用いた再帰的な横方向・縦方向オフセット接続 (TLOC) を組み付ける。
  • PSROIPooling を用いて点ごとのオフセット特徴を生成し、それらを TLOC モジュールに供給して逐次予測を行う。
  • 提案ごとに分類と局在の項を組み合わせたマルチタスク損失で学習する。
  • 2 つの後処理ステップを適用する:non-polygon suppression (NPS) と polygonal non-maximum suppression (PNMS)。

実験結果

リサーチクエスチョン

  • RQ1ポリゴンベースの検出器は、別々の検出結果を組み合わせずに曲線テキストを直接局在化できるのか。
  • RQ2再帰的オフセット接続(TLOC)を組み込むことで曲線テキストの局在精度は向上するか。
  • RQ3曲線に焦点を当てた後処理ステップ(NPS、PNMS)は曲線テキストと非曲線テキストの検出性能にどう影響するか。
  • RQ4曲線、長方形、四辺形の注釈を追加ラベリングなしで扱えるほど普遍的か。

主な発見

アルゴリズム全体セットR全体セットP全体セットH非曲線サブセットR非曲線サブセットP非曲線サブセットH曲線サブセットR曲線サブセットP曲線サブセットHS (FPS)
SegLink40.042.340.848.438.342.819.49.913.210.7
SWT9.020.712.55.813.48.16.47.06.7-
CTPN53.860.456.959.454.356.737.734.135.87.14
EAST49.178.760.457.571.063.629.940.934.621.2
DMPNet56.069.962.261.763.962.739.335.537.312.3
CTD65.274.369.560.367.363.573.952.961.615.2
CTD + TLOC69.877.473.462.370.866.377.157.165.613.3
  • CTW1500 は 1,500 枚の画像を含み、10,751 の境界ボックスがあり、そのうち 3,530 は曲線ボックスである。
  • CTD(TLOC なし)は full CTW1500 テストセットで最先端の Hmean 69.5 を達成;CTD は TLOC を用いると 73.4 に達する。
  • CTD+TLOC は曲線テキスト検出を大幅に改善し、曲線サブセットで 77.1 R、57.1 P、65.6 H、13.3 FPS。
  • PNMS は実験全体で NMS より一貫して改善をもたらし、TLOC の追加は Hmean の最大の改善をもたらす(約4ポイント)。
  • CTD+TLOC は CTW1500 の結果でいくつかのベースライン(SegLink、SWT、CTPN、EAST、DMPNet)を上回り、特に曲線サブセットで顕著(例:約28% の Hmean 改善)。
  • 本手法は曲線テキストを直接扱いながら高速(13–15 FPS)で、非曲線テキストのサブセットにも一般化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。