[论文解读] UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World
UnrealText 基于 3D Unreal Engine 世界渲染照片级真实场景文字图像,以提升场景文字检测与识别,提供大规模多语言数据集及全符号注释。
Synthetic data has been a critical tool for training scene text detection and recognition models. On the one hand, synthetic word images have proven to be a successful substitute for real images in training scene text recognizers. On the other hand, however, scene text detectors still heavily rely on a large amount of manually annotated real-world images, which are expensive. In this paper, we introduce UnrealText, an efficient image synthesis method that renders realistic images via a 3D graphics engine. 3D synthetic engine provides realistic appearance by rendering scene and text as a whole, and allows for better text region proposals with access to precise scene information, e.g. normal and even object meshes. The comprehensive experiments verify its effectiveness on both scene text detection and recognition. We also generate a multilingual version for future research into multilingual scene text detection and recognition. Additionally, we re-annotate scene text recognition datasets in a case-sensitive way and include punctuation marks for more comprehensive evaluations. The code and the generated datasets are released at: https://github.com/Jyouhou/UnrealText/ .
研究动机与目标
- 推动需要可扩展、逼真的合成数据用于场景文字检测与识别,超越嵌入背景文本的方法。
- 提出一个基于3D世界的文本合成引擎(UnrealText),以生成为含丰富场景信息的标注数据。
- 证明3D 渲染可提升检测器/识别器性能,并实现带全面注释的多语言数据集。
- 发布大规模英文和多语言合成数据集,并重新注释现有基准以实现全符号评估。
提出的方法
- 在基于UE4的场景中将文本渲染为平面网格纹理,以确保场景文本的综合真实感(光照、遮挡、透视)。
- 开发一个使用带有辅助相机锚点的物理约束3D随机游走的视点发现模块,以生成多样化的视角。
- 通过改变光照、雾等条件引入环境随机化,模拟真实世界的变化。
- 提出一个两阶段的文字区域生成管线:初始来自表面法线图的候选区域,然后在对象网格上进行3D精炼,以获得自然透视畸变。
- 通过将 refined proposals 三角化为平面网格来渲染文本,应用具有不同字体/颜色的纹理,并收集相应的地面真值内容。
- 实现高效渲染(每张图0.7–1.5秒),使用UE4和UnrealCV生成大规模多语言数据集。
实验结果
研究问题
- RQ13D场景级文本合成是否能在检测器/识别器训练方面胜过以往的2D背景文本嵌入方法?
- RQ2视点发现和环境随机化如何影响合成数据的多样性及下游性能?
- RQ3与传统区域候选相比,基于3D-增强的网格文本候选在场景文本合成中能提供哪些好处?
- RQ4与 UnrealText 在生成多语言且注释丰富的场景文字数据集方面有多有效?
- RQ5在使用 UnrealText(以及与真实数据的组合)进行预训练对真实世界基准的影响如何?
主要发现
- 在 IC15、IC13 和 MLT17 上,使用 UnrealText 训练的检测器的 F1 高于以往的合成数据(例如 10K UnrealText 对比 10K SynthText/VISD/SynthText3D)。
- 将 UnrealText 与 VISD 或 SynthText 结合,提升检测性能,超越单独使用任何一种方法,显示与真实背景合成数据的互补性。
- 对 UnrealText(完整数据集)的预训练然后在真实数据上微调,在 IC15、IC13 和 MLT 2017 上取得显著提升,在某些设置中超过若干近来最先进的结果。
- Mask-RCNN 实验表明 UnrealText 和 SynthText3D 超过真实背景合成数据集,完整的 UnrealText 加上 SynthText 在跨方法上取得显著改进。
- 消融实验显示视点发现和环境随机化组件显著提升多样性和性能,特别是在较小的训练集上;随机游走加手动锚点提供稳健的可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。