[论文解读] Meta-Reinforced Synthetic Data for One-Shot Fine-Grained Visual Recognition
该论文提出MetaIRNet,一种元学习框架,通过结合预训练ImageNet GAN生成的合成图像与真实图像,提升少样本细粒度视觉识别性能。通过仅用每个新类别的一张图像微调生成器,并利用元学习学习最优的真实与生成图像混合策略,该方法在CUB和NAB数据集上均显著优于基线模型,证明了在适当增强下,合成数据可被有效利用。
One-shot fine-grained visual recognition often suffers from the problem of training data scarcity for new fine-grained classes. To alleviate this problem, an off-the-shelf image generator can be applied to synthesize additional training images, but these synthesized images are often not helpful for actually improving the accuracy of one-shot fine-grained recognition. This paper proposes a meta-learning framework to combine generated images with original images, so that the resulting ``hybrid'' training images can improve one-shot learning. Specifically, the generic image generator is updated by a few training instances of novel classes, and a Meta Image Reinforcing Network (MetaIRNet) is proposed to conduct one-shot fine-grained recognition as well as image reinforcement. The model is trained in an end-to-end manner, and our experiments demonstrate consistent improvement over baselines on one-shot fine-grained image classification benchmarks.
研究动机与目标
- 为解决少样本细粒度视觉识别中的数据稀缺问题,即稀有类别缺乏足够的标注训练样本。
- 克服现成GAN生成图像因模式崩溃和域偏移导致分类器性能下降的局限性。
- 开发一种有效结合合成与真实图像的方法,以提升少样本分类准确率。
- 通过元学习学习一种数据增强策略,弥合真实图像与生成图像之间的域差距。
- 证明预训练ImageNet GAN可在极少监督下有效适配细粒度识别任务。
提出的方法
- 仅通过更新批量归一化参数(缩放与偏移)对预训练ImageNet GAN进行微调,每个新类别仅使用一张图像,以生成更逼真的图像。
- 提出元图像增强网络(MetaIRNet),学习将真实与生成图像混合为混合训练样本,以减少域差异。
- 以端到端、基于元学习的episode方式训练MetaIRNet,每个episode采样少量支持图像与查询集,以模拟少样本学习。
- 使用可学习的混合权重w,动态控制训练过程中真实图像与生成图像的贡献,w由元学习器预测。
- 采用对比损失优化模型,促使融合图像在特征空间中位于真实与生成图像之间,提升泛化能力。
- 利用ImageNet预训练特征作为主干网络,确保与现有少样本学习方法的公平比较。
实验结果
研究问题
- RQ1能否仅用每类一张图像对预训练GAN进行有效微调,以生成适用于细粒度识别的逼真图像?
- RQ2简单地将GAN生成图像加入训练集是否能提升少样本分类性能?
- RQ3真实与生成图像之间的元学习混合策略是否能弥合域差距并提升分类器泛化能力?
- RQ4所提出的MetaIRNet在细粒度少样本基准上的准确率与最先进元学习方法相比如何?
- RQ5合成数据与元学习的结合是否能在不同细粒度数据集上实现一致的性能提升?
主要发现
- 在CUB数据集上,MetaIRNet在5类1样本设置下达到89.19%的准确率,相比ProtoNet基线提升2.15个百分点。
- 在更大的NAB数据集上,该方法将分类准确率从ProtoNet基线的87.91%提升至89.19%,在更复杂基准上也表现出一致的性能增益。
- t-SNE可视化显示,融合图像(真实+生成)在真实与生成图像之间形成独立聚类,表明域对齐效果良好。
- MetaIRNet学习到的混合权重w对高质量生成图像较高,对低质量图像较低,表明融合策略具备自适应能力。
- 消融实验表明,直接添加生成图像会损害性能,而元学习的融合策略则能持续提升准确率。
- 初步实验确认,通过仅用一张图像微调GAN的批量归一化参数,可生成视觉上逼真的样本,从而实现有效的数据增强。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。