[论文解读] Object Detection Using Deep CNNs Trained on Synthetic Images
本文提出仅使用合成的3D渲染图像对深度卷积神经网络目标检测器进行端到端训练,以实现对杂乱冰箱场景中包装食品的检测。尽管仅使用了4,000张合成图像,模型在真实测试集上仍达到了24的平均平均精度(mAP),当使用仅400张真实图像进行微调后,mAP提升12%至27,表明从合成数据到真实世界数据的迁移学习具有显著效果。
The need for large annotated image datasets for training Convolutional Neural Networks (CNNs) has been a significant impediment for their adoption in computer vision applications. We show that with transfer learning an effective object detector can be trained almost entirely on synthetically rendered datasets. We apply this strategy for detecting pack- aged food products clustered in refrigerator scenes. Our CNN trained only with 4000 synthetic images achieves mean average precision (mAP) of 24 on a test set with 55 distinct products as objects of interest and 17 distractor objects. A further increase of 12% in the mAP is obtained by adding only 400 real images to these 4000 synthetic images in the training set. A high degree of photorealism in the synthetic images was not essential in achieving this performance. We analyze factors like training data set size and 3D model dictionary size for their influence on detection performance. Additionally, training strategies like fine-tuning with selected layers and early stopping which affect transfer learning from synthetic scenes to real scenes are explored. Training CNNs with synthetic datasets is a novel application of high-performance computing and a promising approach for object detection applications in domains where there is a dearth of large annotated image data.
研究动机与目标
- 解决在训练卷积神经网络进行目标检测时,真实世界标注数据集有限的问题,特别是针对包装食品在冰箱中存在高类内差异的场景。
- 探究合成数据集是否可作为复杂、杂乱场景中训练鲁棒目标检测器的可行替代方案。
- 评估合成数据质量、数据多样性以及训练策略对从合成数据到真实图像迁移学习性能的影响。
- 探索模型架构、微调策略和早停等超参数,以优化检测性能。
提出的方法
- 使用从200种不同包装食品3D模型生成的4,000张合成渲染图像训练卷积神经网络目标检测器。
- 通过在预训练ImageNet模型的基础上微调网络,应用迁移学习方法。
- 系统性地改变训练词典中3D模型的数量(10至400),以评估模型多样性对检测性能的影响。
- 实施逐层微调,逐步解冻深层网络层,以优化从合成数据到真实数据的特征迁移。
- 基于验证集mAP采用早停策略,防止模型在合成数据上过拟合,训练过程监控25至50个周期。
- 在包含55个目标物体和17个干扰物体的50个众包获取的冰箱场景测试集上评估性能。
实验结果
研究问题
- RQ1当仅使用合成图像进行训练时,深度卷积神经网络目标检测器是否能在高类内差异的真实世界目标检测任务中达到可接受的性能?
- RQ2在预训练于合成数据的模型上,仅加入400张真实图像进行微调,如何提升检测性能?
- RQ3训练词典中3D模型的多样性(即不同3D模型的数量)对检测器在真实场景中泛化能力有何影响?
- RQ4在选择性层解冻与全层微调两种策略中,哪种能实现从合成数据到真实图像的最佳迁移性能?
- RQ5早停是否能防止模型对合成数据过拟合,并提升在真实世界测试数据上的泛化能力?
主要发现
- 仅使用4,000张合成图像进行训练的卷积神经网络,在包含55种不同食品产品的50个真实冰箱场景测试集中,达到了24的平均平均精度(mAP)。
- 将同一模型使用仅400张真实图像进行微调后,mAP提升了12%至27,证明了从合成数据到真实数据的强迁移能力。
- 当训练词典中包含200种不同3D模型时性能达到峰值,400种模型时性能略有下降,表明在达到一定多样性阈值后,收益开始递减。
- 对GoogLeNet架构中的所有Inception模块进行微调时,迁移性能最佳,表明深层特征适应对领域泛化至关重要。
- 当训练超过50个周期时,模型在合成数据上出现过拟合现象,表现为验证集mAP下降,凸显了早停策略的重要性。
- 在干扰物体中观察到蔬菜类别的误报,表明ImageNet预训练可能使模型偏向于某些在合成训练数据中不存在的视觉模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。