QUICK REVIEW

[論文レビュー] Fused Text Segmentation Networks for Multi-oriented Scene Text Detection

Yuchen Dai, Zheng Huang|arXiv (Cornell University)|Sep 11, 2017

Handwritten Text Recognition Techniques参考文献 39被引用数 25

ひとこと要約

本稿では、マルチレベルの特徴を統合し、Mask-NMSを用いて非最大抑制を改善することで、複数の方向をとるテキストを統合的に検出・セグメンテーションするエンドツーエンドでインスタンスに特化したフレームワーク、Fused Text Segmentation Networks (FTSN) を提案する。ICDAR2015 では 84.1% の H-mean、MSRA-TD500 では 82.0% を達成し、SOTA性能を発揮するとともに、曲線テキストを含む Total-Text においても新たなベースラインを確立した。

ABSTRACT

In this paper, we introduce a novel end-end framework for multi-oriented scene text detection from an instance-aware semantic segmentation perspective. We present Fused Text Segmentation Networks, which combine multi-level features during the feature extracting as text instance may rely on finer feature expression compared to general objects. It detects and segments the text instance jointly and simultaneously, leveraging merits from both semantic segmentation task and region proposal based object detection task. Not involving any extra pipelines, our approach surpasses the current state of the art on multi-oriented scene text detection benchmarks: ICDAR2015 Incidental Scene Text and MSRA-TD500 reaching Hmean 84.1% and 82.0% respectively. Morever, we report a baseline on total-text containing curved text which suggests effectiveness of the proposed approach.

研究の動機と目的

制約のないシーンにおける複数の方向をとるテキスト、および曲線テキストを高い精度と効率で検出する課題に対処すること。
既存手法が重複するパイプライン依存であるか、任意形状のテキストインスタンスに対応できないという限界を克服すること。
領域提案ネットワークとセマンティックセグメンテーションの長所を統合した、統一的でエンドツーエンドで学習可能なフレームワークを構築すること。
マスクベースの非最大抑制（Mask-NMS）を導入することで、急角度やライン単位のテキストに対して非最大抑制の性能を向上させること。
曲線テキストを含む Total-Text データセットに対して、特別な設計を施さずに強力なベースラインを確立すること。

提案手法

テキストインスタンスの微細な表現を向上させるために、特徴抽出段階でマルチレベルの畳み込み特徴を統合する。
テキストの大きなアスペクト比と小スケールに適した、独自にカスタマイズされたアノテーションスケール [32², 64², 128², 256²] と比率 [1/3, 1/2, 1, 2, 3, 5, 7] を用いた領域提案ネットワーク（RPN）を採用する。
インスタンスに特化したセマンティックセグメンテーションと領域提案を統合し、エンドツーエンドでテキストインスタンスを同時に検出・セグメンテーションする。
予測されたセグメンテーションマスクを用いて重複する検出をより効果的に抑制できる、Mask-NMS を適用する。
正確なマスク予測のための領域固有の特徴を生成するために、特徴マップ上に PSROIPooling を適用する。
多スケール学習、回転（15°, 30°, 45°）、水平フリップ、色のジャマリングといったデータオーグメンテーションを用いて、耐性を向上させる。

実験結果

リサーチクエスチョン

RQ1統一的でエンドツーエンドのフレームワークは、従来の2段階またはパイプラインベースの手法よりも、複数の方向をとるテキストをより効果的に検出・セグメンテーションできるか？
RQ2複数レベルの特徴統合は、スケールや方向が異なるテキストの検出性能をどの程度向上させるか？
RQ3Mask-NMS は、重複するか、急角度のテキストインスタンスに対して、標準的な NMS よりもどの程度優れているか？
RQ4本手法は、曲線テキストを含む Total-Text のようなデータセットに対して、特別な設計を施さずに良好な汎用性を示せるか？
RQ5余分な後処理ステップ（例：局所性マップやテキストライン生成）を排除することで、効率性と精度の両方を向上させられるか？

主な発見

Mask-NMS を搭載した FTSN は、ICDAR2015 で 84.1% の H-mean を達成し、前回の SOTA よりも H-mean で 3.1 パーセンテージポイント、精度で 5.3 パーセンテージポイントの向上を達成した。
MSRA-TD500 では、Mask-NMS を搭載した FTSN が 82.0% の H-mean を達成し、H-mean と再現率の両面で前回の最高結果を大きく上回った。
曲線テキストを含む Total-Text データセットにおいて、81.3% の H-mean を達成し、明示的な曲線テキスト学習を施さなくても、強力な汎用性を示した。
Mask-NMS は、ICDAR2015 で H-mean を 0.7% 向上させ、MSRA-TD500 では 0.3% 向上させ、重複するか、急角度のテキストインスタンスの処理における有効性を裏付けた。
848×1500 の画像では約 4 FPS、Mask-NMS を使用する場合は 2.5 FPS で実行可能であり、速度と精度のバランスが良好であることが示された。
アブレーション実験から、提案された特徴統合と Mask-NMS のコンponents が、特に困難な複数の方向や曲線テキストの状況において、性能に不可欠であることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。