Skip to main content
QUICK REVIEW

[論文レビュー] TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

Shangbang Long, Jiaqiang Ruan|arXiv (Cornell University)|Jul 4, 2018
Handwritten Text Recognition Techniques参考文献 47被引用数 32
ひとこと要約

TextSnakeは、任意の形状のテキスト、特に曲がったテキストや複数の方向をとるテキストを検出するための柔軟で微分可能な表現を提案する。中央軸に沿って順序付けられ、重複するディスクの系列として表現され、半径と向きが学習可能である。完全畳み込みネットワーク(FCN)で訓練されたこの手法は、先行手法と比較してTotal-TextベンチマークでF-measureを40%以上向上させ、最先端の性能を達成した。

ABSTRACT

Driven by deep neural networks and large scale datasets, scene text detection methods have progressed substantially over the past years, continuously refreshing the performance records on various standard benchmarks. However, limited by the representations (axis-aligned rectangles, rotated rectangles or quadrangles) adopted to describe text, existing methods may fall short when dealing with much more free-form text instances, such as curved text, which are actually very common in real-world scenarios. To tackle this problem, we propose a more flexible representation for scene text, termed as TextSnake, which is able to effectively represent text instances in horizontal, oriented and curved forms. In TextSnake, a text instance is described as a sequence of ordered, overlapping disks centered at symmetric axes, each of which is associated with potentially variable radius and orientation. Such geometry attributes are estimated via a Fully Convolutional Network (FCN) model. In experiments, the text detector based on TextSnake achieves state-of-the-art or comparable performance on Total-Text and SCUT-CTW1500, the two newly published benchmarks with special emphasis on curved text in natural images, as well as the widely-used datasets ICDAR 2015 and MSRA-TD500. Specifically, TextSnake outperforms the baseline on Total-Text by more than 40% in F-measure.

研究の動機と目的

  • 既存のシーンテキスト検出器が軸に平行な長方形や回転長方形といった剛性の高い表現に依存しているという限界に対処すること。このような表現は、曲がったテキストや自由形式のテキストでは失敗する。
  • 水平、方向付き、曲がったテキストを含む任意の形状のテキストインスタンスを正確に記述できる汎用的な表現を開発すること。
  • 可変な幅と向きを持つ学習可能な連続的な中央軌道を用いて、テキストの幾何学的モデリングを正確に行えるようにすること。
  • Total-Text や SCUT-CTW1500 のような、曲がったテキストに重点を置いたベンチマークで検出性能を向上させつつ、標準的なデータセットでも優れた性能を維持すること。

提案手法

  • TextSnakeは、学習可能な中央軸上に中心を持つ、順序付けられ、重複するディスクの系列としてテキストインスタンスを表現する。各ディスクには可変な半径と向きが割り当てられる。
  • 中央軸、半径、向きは、予測を一貫したテキストインスタンスにグループ化するための新しい微分可能で異なるクラスタリング層(TCL)を備えた単一の完全畳み込みネットワーク(FCN)によって一括して予測される。
  • TCL機構により、予測された中央点が順序付けられ、重複しないように保証され、インスタンス分離が明確になり、インスタンスセグメンテーションが簡素化される。
  • モデルは、中心点、半径、向きの予測を組み合わせたマルチタスク損失関数を用いて訓練され、空間的整合性を強制するための微分可能クラスタリングが適用される。
  • この表現により、曲がったテキストをストレートな形に変換するための標準化変換が可能になり、下流の認識タスクに有利に働く。
  • 本手法は、ICDAR 2015、MSRA-TD500、Total-Text、SCUT-CTW1500で訓練および評価され、水平、方向付き、曲がったテキストのすべてのタイプで一貫した性能を示した。

実験結果

リサーチクエスチョン

  • RQ1学習可能な連続的な中央軸表現は、長方形や四角形といった剛性の高い幾何的表現よりも、曲がったテキストや不規則な形状のテキストを検出する際に優れているだろうか?
  • RQ2トレーニング時に曲がったテキストを含まないデータセットで学習した場合、推論時に曲がったテキストを含むデータセットに一般化できる程度はどの程度か?
  • RQ3テキストを可変半径のディスクの系列としてモデル化することで、曲がったテキストに重点を置いたベンチマークでの検出精度がどの程度向上するのか?
  • RQ4提案された表現はインスタンスセグメンテーションを簡素化し、認識タスクに適した標準化形式への変換を容易にできるだろうか?
  • RQ5本手法は、曲がったテキストに特化したデータセットで最先端の結果を達成する一方で、標準的なベンチマークでも優れた性能を維持できるだろうか?

主な発見

  • TextSnakeはMSRA-TD500で78.3%のF-measureを達成し、EAST、SegLink、PixelLinkといった先行手法を上回った。
  • Total-Textベンチマークでは、ベースライン比でF-measureが40.0%向上し、新たな最先端の結果を達成した。
  • クロスデータセット評価では、ICDAR 2015での微調整のみでTotal-Textで64.6%、CTW1500で64.4%のF-measureを達成し、SegLink、EAST、PixelLinkを大きく上回った。
  • 本手法は優れた一般化性能を示した。曲がったデータセットでの微調整なしに、曲がったテキストに対して良好な性能を発揮しており、形状の変動に対して強い耐性を示した。
  • 微分可能クラスタリング層(TCL)の使用により、正確で重複のない中央軸予測が可能になり、インスタンス分離が簡素化され、検出精度が向上した。
  • 予測された幾何学的形状により、曲がったテキストを効果的に標準化形式に変換できるようになり、下流のテキスト認識タスクに利益をもたらした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。