QUICK REVIEW

[論文レビュー] Synthetic Data for Text Localisation in Natural Images

Ankush Gupta, Andrea Vedaldi|arXiv (Cornell University)|Apr 22, 2016

Handwritten Text Recognition Techniques参考文献 36被引用数 160

ひとこと要約

本論文は SynthText in the Wild を用いて Fully-Convolutional Regression Network（FCRN）を訓練し、自然画像における高速かつエンドツーエンドのテキスト局在を実現する。最先端の結果を達成し、GPU で最大 15 FPS まで達する。

ABSTRACT

In this paper we introduce a new method for text detection in natural images. The method comprises two contributions: First, a fast and scalable engine to generate synthetic images of text in clutter. This engine overlays synthetic text to existing background images in a natural way, accounting for the local 3D scene geometry. Second, we use the synthetic images to train a Fully-Convolutional Regression Network (FCRN) which efficiently performs text detection and bounding-box regression at all locations and multiple scales in an image. We discuss the relation of FCRN to the recently-introduced YOLO detector, as well as other end-to-end object detection systems based on deep learning. The resulting detection network significantly out performs current methods for text detection in natural images, achieving an F-measure of 84.2% on the standard ICDAR 2013 benchmark. Furthermore, it can process 15 images per second on a GPU.

研究の動機と目的

自然なシーンでの頑健なテキストスポットを動機づけ、合成データを使用して注釈コストを削減する。
シーンのジオメトリと照明を考慮したスケーラブルな合成データ生成パイプラインを開発する。
dense なテキスト局在と境界ボックス回帰のための高速な完全畳み込み回帰ネットワークを提案する。
標準ベンチマークでアプローチを評価し、テキストスポッティングのエンドツーエンドの改善を実証する。

提案手法

ジオメトリ認識の整列を考慮した背景画像に合成テキストをオーバーレイして SynthText in the Wild を作成する。
ローカル深度と表面法線を推定して場面ジオメトリに合わせてテキストの向きを調整し、レンダリング前に整列する。
ローカル領域の色に適合させてテキストをレンダリングし、Poisson ブレンドを適用してシームレスな合成を実現する。
密度の高いグリッド位置でテキストの存在と境界ボックスパラメータを予測する完全畳み込み回帰ネットワーク（FCRN）を開発する。
800k 枚の合成画像で FCRN を訓練し、単一スケールおよびマルチスケールの検出を評価する。
マルチスケールの FCRN 出力を後処理フィルターと組み合わせて提案を洗練させ、リコールを向上させる。

実験結果

リサーチクエスチョン

RQ1合成シーンテキストデータは自然画像の高性能なテキスト検出器を訓練するのに十分な現実性を提供するか。
RQ2完全畳み込み回帰ネットワークはテキスト局在において領域提案ベースのアプローチと比較して速度と精度の点でどうか。
RQ3合成データ生成における設計選択（局所領域の手掛かり、深度ベースのパースペクティブ、ブレンド）は局在性能にどの程度影響を与えるか。
RQ4自然シーンにおける検出と認識を組み合わせたエンドツーエンドのテキストスポッティングをどの程度改善できるか。

主な発見

SynthText in the Wild での訓練は ICDAR 2013 および関連ベンチマークで最先端のテキスト検出を可能にする。
FCRN 検出器は従来の手法より著しく高速で、GPU 上で最大 15 画像/秒を処理する。
マルチスケールの FCRN 検出を後処理と組み合わせて提案とすることで、最大 F-measure および平均適合度の substantial な改善を達成する。
エンドツーエンドのテキストスポッティングは、以前の検出段階を FCRN ベースの提案に置換することで顕著に改善され、ICDAR データセットで 8 点の F-measure 増加を含む。
合成データベースの検出器は領域提案段階で大きなスピードアップ（約 45 倍）を提供し、最終提案セットを削減しつつ精度を維持または向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。