[论文解读] Adversarial Generation of Training Examples: Applications to Moving Vehicle License Plate Recognition
本文提出了一种新颖的流水线,利用带有WGAN训练的CycleGAN生成逼真的合成车牌图像,用于移动车辆车牌识别(LPR)深度学习模型的训练。通过在GAN生成的图像上预训练轻量级卷积-循环神经网络(LightCRNN),随后在真实数据上微调,该方法在仅有限真实训练数据的情况下,相比强基线模型实现了7.5个百分点的准确率提升,并实现了在移动设备和嵌入式设备上的高效推理。
Generative Adversarial Networks (GAN) have attracted much research attention recently, leading to impressive results for natural image generation. However, to date little success was observed in using GAN generated images for improving classification tasks. Here we attempt to explore, in the context of car license plate recognition, whether it is possible to generate synthetic training data using GAN to improve recognition accuracy. With a carefully-designed pipeline, we show that the answer is affirmative. First, a large-scale image set is generated using the generator of GAN, without manual annotation. Then, these images are fed to a deep convolutional neural network (DCNN) followed by a bidirectional recurrent neural network (BRNN) with long short-term memory (LSTM), which performs the feature learning and sequence labelling. Finally, the pre-trained model is fine-tuned on real images. Our experimental results on a few data sets demonstrate the effectiveness of using GAN images: an improvement of 7.5% over a strong baseline with moderate-sized real data being available. We show that the proposed framework achieves competitive recognition accuracy on challenging test datasets. We also leverage the depthwise separate convolution to construct a lightweight convolutional RNN, which is about half size and 2x faster on CPU. Combining this framework and the proposed pipeline, we make progress in performing accurate recognition on mobile and embedded devices.
研究动机与目标
- 为解决用于移动车辆LPR深度学习模型训练的真实世界车牌图像标注数据稀缺的问题。
- 探究生成对抗网络(GANs)是否能够生成有效的合成训练数据,从而提升真实世界识别任务中的分类性能。
- 开发一种轻量级、高效的神经网络架构,适用于在移动设备和嵌入式设备上部署。
- 实现在移动摄像头、高速运动和光照条件多变等挑战性条件下高精度的LPR。
- 证明结合课程学习策略的GAN生成图像可显著提升模型的泛化能力和鲁棒性。
提出的方法
- 计算机图形学流水线生成具有正确字体、颜色和字符序列的合成车牌图像,同时保留真实标签。
- 使用循环一致性与WGAN损失,训练CycleGAN模型将合成图像转换为逼真照片级图像,无需成对的真实-合成数据。
- 训练完成的GAN生成器生成80万张合成的、逼真的车牌图像,用于数据增强。
- 使用双向LSTM的深度卷积-循环神经网络(CRNN)在GAN生成的图像上进行预训练,以学习鲁棒特征。
- 采用课程学习策略,在真实世界训练数据上对预训练模型进行微调,以提升泛化能力。
- 通过深度可分离卷积设计轻量级CRNN(LightCRNN),使模型大小减少43.5%,并在CPU上将推理速度提升2倍。
实验结果
研究问题
- RQ1GAN生成的合成图像是否能有效提升真实世界、数据稀缺的识别任务(如移动车辆LPR)中深度学习模型的性能?
- RQ2通过CycleGAN实现无配对图像转换并结合WGAN损失,是否能生成足够逼真的图像,作为监督分类的有效训练数据?
- RQ3在GAN生成数据上进行预训练,随后在真实数据上微调,对识别准确率和模型泛化能力有何影响?
- RQ4基于深度可分离卷积的轻量级神经网络架构是否能在保持高准确率的同时,实现在移动设备和嵌入式设备上的快速推理?
- RQ5当真实训练数据有限时,GAN生成数据对模型性能有何影响?
主要发现
- 当仅使用中等规模真实数据时,所提出的流水线相比强基线模型实现了7.5个百分点的识别准确率提升。
- 在具有挑战性的移动LPR数据集(Dataset-3)上,应用GAN数据增强流水线后,识别准确率从89.4%提升至92.1%。
- LightCRNN与GAN生成数据的结合在基准数据集上实现了98.6%的识别准确率,表现出强大的泛化能力。
- LightCRNN模型将模型大小从71.4 MB减少至40.3 MB,并将CPU上的推理速度从7.2 FPS提升至13.9 FPS,实现了在边缘设备上的高效部署。
- 当真实数据稀缺时,GAN生成图像的使用尤为有效,性能增益在数据受限条件下更加显著。
- 可视化结果证实,GAN生成的图像捕捉到了真实车牌的关键视觉模式,支持其作为训练数据的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。