[论文解读] Masked Non-Autoregressive Image Captioning
本文提出了一种用于图像字幕生成的掩码非自回归解码方法,通过在逐步减少掩码的输入序列上训练掩码语言模型,以组合式、多阶段的方式生成字幕。通过结合视觉显著性提取与迭代语言优化,该方法在推理速度、误差累积减少、语义准确性提升以及字幕多样性方面,均优于自回归和标准非自回归基线方法。
Existing captioning models often adopt the encoder-decoder architecture, where the decoder uses autoregressive decoding to generate captions, such that each token is generated sequentially given the preceding generated tokens. However, autoregressive decoding results in issues such as sequential error accumulation, slow generation, improper semantics and lack of diversity. Non-autoregressive decoding has been proposed to tackle slow generation for neural machine translation but suffers from multimodality problem due to the indirect modeling of the target distribution. In this paper, we propose masked non-autoregressive decoding to tackle the issues of both autoregressive decoding and non-autoregressive decoding. In masked non-autoregressive decoding, we mask several kinds of ratios of the input sequences during training, and generate captions parallelly in several stages from a totally masked sequence to a totally non-masked sequence in a compositional manner during inference. Experimentally our proposed model can preserve semantic content more effectively and can generate more diverse captions.
研究动机与目标
- 解决自回归图像字幕生成中的序列误差累积与推理缓慢问题。
- 通过更直接地建模目标分布,克服非自回归解码中的多模态问题。
- 通过解耦视觉与语言生成阶段,提升字幕的多样性与语义丰富度。
- 通过多阶段、掩码化的推理过程,实现更快、更准确的字幕生成。
提出的方法
- 模型在训练过程中使用在多种掩码比例(例如,0.4、0.6、0.8、1.0)下掩码的输入序列进行掩码语言模型训练。
- 在推理阶段,模型以多阶段方式生成字幕,从完全掩码的序列开始,逐步减少掩码程度,最终生成完整字幕。
- 每一阶段均使用双向Transformer解码器,基于视觉特征和部分生成的序列进行字幕优化。
- 该方法采用组合式生成过程:早期阶段聚焦于显著的视觉内容,后期阶段则优化语言结构与语义。
- 模型借鉴BERT的掩码输入策略,实现对真实目标分布的间接但有效的建模。
- 最终字幕通过迭代优化生成,每一阶段均基于相同的编码器-解码器架构与掩码输入,在前一阶段结果基础上逐步改进。
实验结果
研究问题
- RQ1掩码非自回归解码策略是否能减少误差传播并提升图像字幕生成的推理速度?
- RQ2与标准自回归或非自回归方法相比,分阶段、多比例掩码是否能提升语义准确度与多样性?
- RQ3先视觉后语言的生成过程是否能更好地保留生成字幕中的显著视觉内容?
- RQ4尽管在非自回归设置中存在间接监督,该模型是否仍能有效建模真实目标分布?
主要发现
- 所提方法在MS-COCO测试集上取得BLEU-4得分为83.86,CIDEr得分为91.62,优于自回归基线方法。
- 模型生成的字幕更具多样性,独特字幕占比达12.53%,词汇使用率为11.62%,表明其具有更广泛的词汇覆盖范围。
- 在两次推理轮次中,性能均随阶段推进而提升,第二轮(以第一轮输出作为输入)虽仅多一轮,但表现更优。
- 较长的序列长度可提升SP得分,表明语义覆盖更佳;而中等长度序列在CD得分上表现最优,兼顾句法与语义正确性。
- 该方法减少了对训练数据中频繁n-gram的依赖,从而生成更具语义准确性且更少重复的字幕。
- 实验表明,掩码非自回归解码能有效缓解多模态问题,并实现更快、更准确的字幕生成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。