QUICK REVIEW

[論文レビュー] Generating Synthetic Data for Text Recognition

Praveen Krishnan, C. V. Jawahar|arXiv (Cornell University)|Aug 15, 2016

Handwritten Text Recognition Techniques参考文献 14被引用数 35

ひとこと要約

本論文は、公開済みの手書きフォントを用いて大規模な合成手書き単語画像を生成するフレームワークを提案する。アフィン変換とガウスノイズを適用し、自然な書き込みのばらつきを模擬する。主な貢献は、900万枚の合成単語画像を含むIIIT-HWSデータセットの公開であり、手書き単語認識およびスポットリングのためのディーブラーニングモデルの性能向上を目的としている。

ABSTRACT

Generating synthetic images is an art which emulates the natural process of image generation in a closest possible manner. In this work, we exploit such a framework for data generation in handwritten domain. We render synthetic data using open source fonts and incorporate data augmentation schemes. As part of this work, we release 9M synthetic handwritten word image corpus which could be useful for training deep network architectures and advancing the performance in handwritten word spotting and recognition tasks.

研究の動機と目的

ディープラーニングモデルの学習に適した大規模で多様性に富み、アノテーションが付与された手書き単語画像データセットの不足を解消すること。
IAMのような既存のデータセットが直面する小規模な語彙サイズ、限られた語彙多様性、および不均衡なクラス分布といった制限を克服すること。
スケーラブルな合成代替手段を提供することで、手書き単語認識およびスポットリングのためのディープニューラルネットワークの強固な学習を可能にすること。
ストローク幅、カーニング、回転、せん断、バックグラウンドノイズなどの現実的な手書きのばらつきを模擬し、モデルの汎化能力を向上させること。
手書き文書解析分野における研究を加速するために、公開可能な大規模な合成データセット（IIIT-HWS）を提供すること。

提案手法

オープンソースの辞書（Hunspell）から入手可能な750種類の公開済み手書きフォントを用いて、合成手書き単語画像をレンダリングする。
キービジュアルパラメータを変動させる：カーニング（文字間隔）、ストローク幅、およびIAMデータセットの統計に基づき、前景および背景ピクセルにガウスノイズを適用する。
ランダムな回転（±5°）、水平せん断（±0.5°）、パディングによるトランスレーションを含むアフィン変換を適用し、書き込みのばらつきとセグメンテーションエラーを模擬する。
ImageMagickを用いてレンダリングし、リアルさを高めるためにガウスフィルタリングを適用する。
語彙が9万語の語彙から、1単語あたり100種類の異なるフォントをサンプリングし、900万個のユニークな合成単語画像を生成する。
IAMデータセットから前景および背景ピクセルの分布を学習し、合成画像におけるリアルなピクセル強度統計を保証する。

実験結果

リサーチクエスチョン

RQ1手書きフォントと制御されたばらつきを用いた合成データ生成は、ディープラーニングモデルの学習に適した現実的な手書き単語画像を生成できるか？
RQ2制御されたスタイルばらつきを有する合成データは、実世界のデータセットと比較して、手書き単語認識およびスポットリングタスクの性能をどの程度向上できるか？
RQ3フォントベースのレンダリングとアフィン拡張の組み合わせは、手書きスタイルの自然な多様性をどの程度正確に模擬できるか？
RQ4大規模な合成データセットは、語彙サイズが小さく、クラスが不均衡な既存の実際の手書きデータセットの制限を緩和できるか？
RQ5現実的なノイズおよびテクスチャモデリングを含めることで、合成データで学習した認識モデルの汎化能力にどのような影響を与えるか？

主な発見

著者らは、750種類の公開済み手書きフォントと9万語の語彙を用いて、900万枚の合成手書き単語画像を成功裏に生成した。
合成データはストローク幅、カーニング、回転、せん断、バックグラウンドノイズの現実的なばらつきを組み込み、自然な手書きに類似した。
IIIT-HWSデータセットは公開され、手書き単語認識およびスポットリング分野における研究を支援する。
実データ（IAM）からのピクセル分布のモデリングと幾何変換の適用により、自然な書き込みプロセスを効果的に模擬した。
人的アノテーションが不要なスケーラブルなデータ生成を可能にし、データ収集およびラベリングコストを顕著に削減した。
著者らは、草書体の合成とエラスティック変形のモデリングを今後の課題として特定しており、流れるような手書きのモデリングにおける現在の限界を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。