[论文解读] Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images
本文提出了从句子中学习新视觉概念(Novel Visual Concept learning from Sentences, NVCS)的任务,其中视觉语言模型仅通过少量图像与句子描述即可学习新的视觉概念。通过将预训练图像字幕模型适配为使用转置权重共享和新词固定基线概率的结构,该方法在无需微调整个模型的情况下高效学习新概念,即使仅使用5–50张训练图像,性能也与完整微调相当。
In this paper, we address the task of learning novel visual concepts, and their interactions with other concepts, from a few images with sentence descriptions. Using linguistic context and visual features, our method is able to efficiently hypothesize the semantic meaning of new words and add them to its word dictionary so that they can be used to describe images which contain these novel concepts. Our method has an image captioning module based on m-RNN with several improvements. In particular, we propose a transposed weight sharing scheme, which not only improves performance on image captioning, but also makes the model more suitable for the novel concept learning task. We propose methods to prevent overfitting the new concepts. In addition, three novel concept datasets are constructed for this new task. In the experiments, we show that our method effectively learns novel visual concepts from a few examples without disturbing the previously learned concepts. The project page is http://www.stat.ucla.edu/~junhua.mao/projects/child_learning.html
研究动机与目标
- 使深度学习模型能够从极少监督信号中快速学习新视觉概念,模仿人类儿童的词汇习得过程。
- 解决仅通过少量图像与自然语言描述学习新视觉概念的挑战,同时不破坏已学习的知识。
- 开发一种在小样本新概念数据集上训练时避免过拟合,同时保持对已有概念性能的方法。
- 构建并发布三个用于NVCS任务的基准数据集,包含罕见和虚构概念,如“魁地奇”和“暴龙”。
- 证明在少量样本上微调预训练模型,其性能可与完整微调相媲美甚至超越。
提出的方法
- 将预训练图像字幕模型(m-RNN)作为新视觉概念学习的基础模型。
- 提出一种转置权重共享(Transposed Weight Sharing, TWS)机制,将模型参数减少一半,从而在不增加过拟合风险的前提下,实现更丰富的词表示与多模态表征。
- 在训练过程中固定新词的基线概率,以避免小样本数据集中低频词统计带来的偏差。
- 仅微调新词嵌入向量和特定层,其余模型权重保持冻结,以保护已学习的知识。
- 采用两阶段训练流程:首先在大规模数据集上预训练,然后在少量新概念样本上微调,结合句子描述进行学习。
- 利用多模态特征与语言上下文,推测新词的语义含义,并将其整合进模型词汇表中。
实验结果
研究问题
- RQ1视觉语言模型能否仅通过少量图像及其自然语言描述,学习新视觉概念的语义?
- RQ2模型如何在不遗忘已有知识的前提下学习新概念?
- RQ3何种网络结构改进能提升在极小样本新概念数据集上的泛化能力并防止过拟合?
- RQ4在小样本新概念学习中,微调方法的性能与完整微调相比如何?
- RQ5模型能否泛化到语义上与已有概念相似但原始训练数据中未出现的新概念?
主要发现
- 所提出的Deep-NVCS模型在仅使用每类10至50张图像进行训练时,性能可与在全量数据集上完整微调的模型相媲美。
- 当每类仅使用5张训练图像时,模型性能显著优于基础模型,表明其具备有效的少样本学习能力。
- 在包含罕见和语义模糊概念(如“魁地奇”和“萨米笙”)的NC-3数据集上,模型对“魁地奇”的F1分数达到0.854,对“萨米笙”达到0.630,显著优于基础模型和完整微调方法。
- 由于类别不平衡与过拟合,模型-重训在NC-3上表现欠佳,而Deep-NVCS通过固定基线概率有效防止过拟合,保持了强劲性能。
- 对新概念(如“魁地奇”)学习到的词嵌入向量,其语义最近邻(如“足球”、“橄榄球”)具有合理语义关联,证实模型捕捉到了跨模态语义。
- 转置权重共享机制使参数量减少50%,同时在图像字幕与新概念学习任务上均提升了性能,证明了其架构效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。