[论文解读] Contrast and Classify: Alternate Training for Robust VQA.
该论文提出ConCAT,一种新颖的训练范式,通过交替优化交叉熵损失和对比损失来提升视觉问答(VQA)任务的鲁棒性。通过利用具有语言变化的增强数据,ConCAT在保持高准确率的同时,增强了模型对问题重述的鲁棒性,在VQA 2.0和VQA-Rephrasings基准上优于现有方法。
Recent Visual Question Answering (VQA) models have shown impressive performance on the VQA benchmark but remain sensitive to small linguistic variations in input questions. Existing approaches address this by augmenting the dataset with question paraphrases from visual question generation models or adversarial perturbations. These approaches use the combined data to learn an answer classifier by minimizing the standard cross-entropy loss. To more effectively leverage the augmented data, we build on the recent success in contrastive learning. We propose a novel training paradigm (ConCAT) that alternately optimizes cross-entropy and contrastive losses. The contrastive loss encourages representations to be robust to linguistic variations in questions while the cross-entropy loss preserves the discriminative power of the representations for answer classification. We find that alternately optimizing both losses is key to effective training. VQA models trained with ConCAT achieve higher consensus scores on the VQA-Rephrasings dataset as well as higher VQA accuracy on the VQA 2.0 dataset compared to existing approaches across a variety of data augmentation strategies.
研究动机与目标
- 解决VQA模型对问题中微小语言变化的敏感性问题。
- 在不牺牲标准VQA基准上分类准确率的前提下,提升模型鲁棒性。
- 开发一种能有效利用重述问题数据增强的训练范式。
- 探索在交替优化方案中结合对比损失和交叉熵损失的有效性。
- 在VQA-Rephrasings数据集上实现更高的共识分数,并在VQA 2.0上提升准确率。
提出的方法
- 该方法交替优化标准交叉熵损失以进行答案分类,以及对比损失以增强表示鲁棒性。
- 对比损失用于鼓励同一图像-问题对在不同语言形式下产生相似的表示。
- 通过视觉问题生成模型生成的重述问题进行数据增强。
- 模型学习到对语言变化具有不变性的表示,同时保持对答案预测的判别能力。
- 交替优化调度确保了鲁棒性与分类准确率之间的平衡学习。
- 该方法在VQA 2.0和VQA-Rephrasings数据集上,针对多种数据增强策略进行了评估。
实验结果
研究问题
- RQ1交替优化对比损失和交叉熵损失是否能提升VQA模型对问题重述的鲁棒性?
- RQ2与标准训练结合数据增强相比,ConCAT在重述问题上的准确率和共识度表现如何?
- RQ3交替训练调度是否比联合优化两种损失能带来更好的表示学习效果?
- RQ4与现有方法相比,该方法在VQA-Rephrasings基准上的性能提升程度如何?
- RQ5所提出的方法是否能在提升对语言变化鲁棒性的同时,保持在标准VQA 2.0上的高准确率?
主要发现
- 在多种数据增强策略下,ConCAT在VQA-Rephrasings数据集上取得的共识分数高于现有方法。
- 与基线方法相比,使用ConCAT训练的模型在VQA 2.0基准上表现出更高的VQA准确率。
- 交替优化对比损失和交叉熵损失的性能优于联合优化或标准训练。
- 对比损失有效促进了对问题语言变化具有不变性的鲁棒表示。
- 该方法在增强对重述输入的鲁棒性的同时,保持了强大的答案分类判别能力。
- 结果表明,训练调度是有效利用增强数据实现鲁棒VQA的关键因素。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。