[论文解读] Show, Adapt and Tell: Adversarial Training of Cross-domain Image Captioner
本文提出一种用于跨域图像字幕生成的对抗性训练框架,可在无配对训练数据的情况下,将预训练的字幕模型从源域(如 MSCOCO)适应到目标域(如 CUB-200)。该方法引入两个判别器——领域判别器和多模态判别器,通过策略梯度训练指导字幕生成模型;同时在推理阶段采用基于判别器的规划方法,进一步提升生成质量,在 CUB-200 上实现 CIDEr-D 21.8% 的提升,结合规划后更实现 4.5% 的性能增益。
Impressive image captioning results are achieved in domains with plenty of training image and sentence pairs (e.g., MSCOCO). However, transferring to a target domain with significant domain shifts but no paired training data (referred to as cross-domain image captioning) remains largely unexplored. We propose a novel adversarial training procedure to leverage unpaired data in the target domain. Two critic networks are introduced to guide the captioner, namely domain critic and multi-modal critic. The domain critic assesses whether the generated sentences are indistinguishable from sentences in the target domain. The multi-modal critic assesses whether an image and its generated sentence are a valid pair. During training, the critics and captioner act as adversaries -- captioner aims to generate indistinguishable sentences, whereas critics aim at distinguishing them. The assessment improves the captioner through policy gradient updates. During inference, we further propose a novel critic-based planning method to select high-quality sentences without additional supervision (e.g., tags). To evaluate, we use MSCOCO as the source domain and four other datasets (CUB-200-2011, Oxford-102, TGIF, and Flickr30k) as the target domains. Our method consistently performs well on all datasets. In particular, on CUB-200-2011, we achieve 21.8% CIDEr-D improvement after adaptation. Utilizing critics during inference further gives another 4.5% boost.
研究动机与目标
- 解决在存在显著领域差异但无配对训练数据的情况下,将图像字幕模型适应到目标领域的问题。
- 仅使用未配对的图像和句子数据,实现从源域(如 MSCOCO)到多样化目标域的零样本适应。
- 通过在训练和推理阶段均引入对抗性判别器,提升字幕质量,且无需额外监督信号。
- 设计一种基于判别器的规划机制,在推理阶段通过引入判别器反馈来提升生成质量。
提出的方法
- 提出一种双判别器对抗性框架:领域判别器用于评估生成句子与目标域句子在风格上的相似性,多模态判别器用于验证图像-字幕对的有效性。
- 使用蒙特卡洛滚动方法估算生成字幕的累积奖励,以支持策略梯度更新,实现端到端的字幕生成模型训练。
- 通过领域判别器使字幕生成模型输出的句子与真实目标域句子难以区分,通过多模态判别器确保生成的图像-字幕对在语义上合理。
- 基于判别器反馈使用策略梯度优化方法更新字幕生成模型的参数,提升其与目标域分布的一致性。
- 在推理阶段提出一种基于判别器的规划方法,选择词语时不仅考虑策略网络的概率,还结合判别器的置信度,尤其在不确定性较高时更有效。
- 采用基于阈值的机制,在策略网络最高概率接近第二高时,从贪婪选择切换为基于判别器反馈的决策,从而减少错误。
实验结果
研究问题
- RQ1在无配对训练数据的情况下,使用双判别器的对抗性训练能否有效将源域字幕模型适应到目标域?
- RQ2在跨域设置中,领域判别器与多模态判别器的结合如何提升字幕质量?
- RQ3在推理阶段引入基于判别器的规划方法,能否在不依赖额外监督或标签的情况下进一步提升字幕质量?
- RQ4在跨域适应中,领域判别器与多模态判别器各自的贡献如何?
- RQ5该方法是否能在具有较大领域差异的多样化目标域上实现泛化?
主要发现
- 在 CUB-200-2011 数据集上,该方法在适应后使 CIDEr-D 指标相比源域预训练模型提升了 21.8%。
- 在推理阶段引入基于判别器的规划方法后,CUB-200 上的 CIDEr-D 指标进一步提升了 4.5%,证明了推理阶段判别器反馈的价值。
- 消融实验证实,领域判别器与多模态判别器均不可或缺,仅使用其一会导致性能次优。
- 该方法在四个目标域(包括 TGIF 和 Flickr30k)上均实现性能提升,即使在存在常规领域差异的情况下也表现稳定。
- 基于判别器的规划方法优于贪婪搜索与束搜索策略,尤其在 CUB-200 和 Oxford-102 等高领域差异场景中,能有效减少由不确定性引发的错误。
- 即使在反向适应方向(Flickr30k → MSCOCO)下,该方法仍能取得优异性能,表明其在不同领域间具备强鲁棒性与泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。