QUICK REVIEW

[論文レビュー] UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World

Shangbang Long, Cong Yao|arXiv (Cornell University)|Mar 24, 2020

Handwritten Text Recognition Techniques参考文献 52被引用数 44

ひとこと要約

UnrealText は Unreal Engine の3D世界からシーン文字を含む画像を生成し、シーン文字検出と認識を向上させる。大規模な多言語データセットと全シンボル注釈を提供。

ABSTRACT

Synthetic data has been a critical tool for training scene text detection and recognition models. On the one hand, synthetic word images have proven to be a successful substitute for real images in training scene text recognizers. On the other hand, however, scene text detectors still heavily rely on a large amount of manually annotated real-world images, which are expensive. In this paper, we introduce UnrealText, an efficient image synthesis method that renders realistic images via a 3D graphics engine. 3D synthetic engine provides realistic appearance by rendering scene and text as a whole, and allows for better text region proposals with access to precise scene information, e.g. normal and even object meshes. The comprehensive experiments verify its effectiveness on both scene text detection and recognition. We also generate a multilingual version for future research into multilingual scene text detection and recognition. Additionally, we re-annotate scene text recognition datasets in a case-sensitive way and include punctuation marks for more comprehensive evaluations. The code and the generated datasets are released at: https://github.com/Jyouhou/UnrealText/ .

研究の動機と目的

背景に埋め込まれた文字法だけでなく、スケーラブルで現実的な合成データの必要性を動機づける。
リッチなシーン情報を伴うラベル付きデータを生成する3D世界ベースの文字合成エンジン（UnrealText）を提案する。
3D レンダリングが検出器/認識器の性能を向上させ、包括的な注釈を備えた多言語データセットの作成を可能にすることを示す。
大規模な英語・多言語の合成データセットを公開し、全シンボル評価のため既存ベンチマークを再注釈する。

提案手法

UE4ベースのシーン内で文字を平面メッシュのテクスチャとしてレンダリングし、照明・遮蔽・視点の整合性を確保してシーン文字のリアリズムを共同化する。
辅助カメラアンカーを用いた物理的に制約された3Dランダムウォークによるビュー探索モジュールを開発し、多様な視点を生成する。
照明・霧などの条件を変化させる環境ランダム化を取り入れ、現実世界のバリエーションを模擬する。
表面法線マップから初期提案を得て、物体メッシュ上での3D精練を通じて自然なパースの歪みを生む2段階の文字領域生成パイプラインを提案する。
refined proposals を平面メッシュへ三角形分割して文字をレンダリングし、フォント・色を変えたテクスチャを適用し、対応する地上 truth コンテンツを収集する。
UE4 と UnrealCV を用いて、効率的なレンダリング（1枚あたり 0.7–1.5 秒）を達成し、大規模な多言語データセットを生成する。

実験結果

リサーチクエスチョン

RQ13D シーンベースの文字合成は、先行の2D背景文字埋め込み法を打ち破り、検出器/認識器の訓練に有効か。
RQ2ビュー探索と環境ランダム化は合成データの多様性と下流の性能にどのように影響するか。
RQ33D 増強のメッシュベース文字提案は、シーン文字合成における従来の領域提案に比べてどんな利点を提供するか。
RQ4UnrealText はシーン文字認識の多言語かつ豊富な注釈データセットを生成する上でどれだけ効果的か。
RQ5UnrealText での事前学習（ Real データとの組み合わせを含む）を実世界のベンチマークに適用した場合、影響はどうなるか。

主な発見

訓練データ	IC15 (F1値)	IC13 (F1値)	MLT 2017 (F1値)
SynthText 10K	46.3	60.8	38.9
VISD 10K (full)	64.3	74.8	51.4
SynthText3D 10K (full)	63.4	75.6	48.3
UnrealText 10K	65.2	78.3	54.2
SynthText 800K (full)	58.0	67.7	44.8
UnrealText 600K (full)	67.8	80.6	56.3
SynthText 10K + VISD 10K (composite)
UnrealText 5K + VISD 5K (composite)
UnrealText full + SynthText full (composite)

UnrealText で訓練した検出器は IC15、IC13、MLT17 の F1 が従来の合成データより高くなる（例: 10K UnrealText 対 10K SynthText/VISD/SynthText3D）。
UnrealText を VISD または SynthText と組み合わせると、単独より検出性能が向上し、実背景の合成データとの補完性を示す。
UnrealText（全データセット）での事前学習を実データでファインチューニングすると、IC15、IC13、MLT2017 の各指標で大きな利得を生み、いくつかの設定で最新の状態遷移の結果を凌ぐ。
Mask-RCNN の実験では UnrealText と SynthText3D が実背景合成データより優れており、全 UnrealText と SynthText の組み合わせは方法間で強い改善を示す。
アブレーションにより、ビュー探索と環境ランダム化の要素が多様性と性能を有意に向上させ、特に小規模な訓練セットで効果が高いことが分かった。ランダムウォーク＋手動アンカーは堅牢なスケーラビリティを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。