QUICK REVIEW

[论文解读] Text-Only Training for Image Captioning using Noise-Injected CLIP

David Nukrai, Ron Mokady|arXiv (Cornell University)|Nov 1, 2022

Multimodal Machine Learning Applications被引用 4

一句话总结

本文提出CapDec，一种仅使用文本进行训练的图像字幕生成方法，利用CLIP的冻结文本编码器和仅在文本数据上训练的可学习解码器。通过在训练过程中向CLIP嵌入注入噪声，该方法缓解了视觉与语言之间的模态差距，在四个基准测试中实现了最先进的零样本图像字幕生成性能，包括风格迁移任务，且训练过程中无需任何图像-文本配对数据。

ABSTRACT

We consider the task of image-captioning using only the CLIP model and additional text data at training time and no additional captioned images. Our approach relies on the fact that CLIP is trained to make visual and textual embeddings similar. Therefore, we only need to learn how to translate CLIP textual embeddings back into text, and we can learn how to do this by learning a decoder for the frozen CLIP text encoder using only text. We argue that this intuition is "almost correct" because of a gap between the embedding spaces, and propose to rectify this via noise injection during training. We demonstrate the effectiveness of our approach by showing SOTA zero-shot image captioning across four benchmarks, including style transfer. Code, data, and models are available at https://github.com/DavidHuji/CapDec.

研究动机与目标

开发一种图像字幕生成方法，训练过程中无需任何图像-文本配对数据，仅依赖CLIP和纯文本语料库。
解决CLIP中视觉与文本嵌入之间的领域差距，该差距阻碍了从图像嵌入直接解码生成自然语言字幕。
通过利用目标风格的未配对文本示例，实现在图像字幕生成中的零样本风格迁移。
证明仅使用文本预训练并注入噪声，即可实现与监督方法相当的性能。

提出的方法

仅使用大规模文本语料库而无需图像，训练一个纯文本解码器网络，以从其CLIP文本嵌入中重建输入字幕。
在训练过程中向CLIP文本嵌入注入噪声，以在嵌入空间中形成一个鲁棒的球形区域，提升泛化能力并减少模态差距。
解码器通过轻量级映射头与预训练自回归语言模型端到端联合训练，生成流畅连贯的字幕。
推理时，冻结的CLIP图像编码器处理输入图像，训练好的解码器直接从图像嵌入生成字幕。
通过计算同一图像的字幕之间嵌入差异的平均无穷范数，对噪声注入策略进行经验调优，得到最优噪声标准差ϵ = √0.016。
在标准、跨领域和风格引导的字幕生成基准上评估该方法，展现出强大的零样本性能。

实验结果

研究问题

RQ1能否仅使用文本数据且无需任何图像-文本配对示例，将像CLIP这样的视觉-语言模型适配用于图像字幕生成？
RQ2如何有效缓解CLIP视觉与文本嵌入之间的模态差距，以实现从图像嵌入准确生成字幕？
RQ3训练过程中注入噪声是否能提升纯文本解码器在图像字幕生成任务中的鲁棒性与泛化能力？
RQ4该方法能否仅使用目标风格的未配对文本示例，生成具有多样化风格的高质量字幕？
RQ5与现有零样本和监督基线相比，该方法在性能和泛化能力方面表现如何？

主要发现

CapDec在四个基准上实现了最先进的零样本图像字幕生成性能，涵盖标准、跨领域和风格引导的字幕生成任务。
该方法优于现有的纯文本和零样本方法，包括Su等人（2022年）的同期工作，展现出更优的实证结果。
噪声注入显著提升了性能，而文本重建基线在加入噪声后无任何增益，表明噪声在模态差距修正中具有特定作用，而非一般正则化。
使用均值嵌入偏移进行补偿的效果劣于噪声注入，表明模态差距较为复杂，无法被简单线性偏移完全捕捉。
该方法在风格迁移方面表现有效：仅使用目标风格的未配对文本示例，即可生成任意期望风格的字幕。
尽管性能强劲，CapDec仍逊于完全监督的基线，表明纯文本训练范式仍有改进空间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。