[论文解读] Exploring Diverse In-Context Configurations for Image Captioning
该论文研究多模态上下文配置(图像选择与标题分配)如何影响 Vision-Language Models 的少-shot 图像描述,在 MSCOCO 上相对于随机基线实现最高 20.9 CIDEr 的提升。
After discovering that Language Models (LMs) can be good in-context few-shot learners, numerous strategies have been proposed to optimize in-context sequence configurations. Recently, researchers in Vision-Language (VL) domains also develop their few-shot learners, while they only use the simplest way, ie., randomly sampling, to configure in-context image-text pairs. In order to explore the effects of varying configurations on VL in-context learning, we devised four strategies for image selection and four for caption assignment to configure in-context image-text pairs for image captioning. Here Image Captioning is used as the case study since it can be seen as the visually-conditioned LM. Our comprehensive experiments yield two counter-intuitive but valuable insights, highlighting the distinct characteristics of VL in-context learning due to multi-modal synergy, as compared to the NLP case. Furthermore, in our exploration of optimal combination strategies, we observed an average performance enhancement of 20.9 of CIDEr scores compared to the baseline. The code is given in https://github.com/yongliang-wu/ExploreCfg.
研究动机与目标
- 以图像描述作为案例研究,推动 Vision-Language Models (VLMs) 的多模态上下文学习。
- 系统性地研究在-context 图像选择和标题质量如何影响少-shot 描述性能。
- 识别哪些图像选择与标题分配的组合能最大化描述质量。
- 强调在真实标题有限时,减轻捷径式上下文推断并利用锚点的实用策略。
提出的方法
- 定义四种图像选择策略:随机采样 (RS)、基于相似性的图像-图像检索(SIIR-CLIP 和 SIIR-TAG)、以及基于多样性的图像-图像检索(DIIR-TR 和 DIIR-TT)。
- 定义四种标题分配策略:真实标题 (GTC)、来自 TF 基于和 VLM 基于来源的模型生成标题 (MGC)、迭代提示 (IP)、以及将模型生成标题作为锚点 (MGCA)。
- 构建多模态上下文序列,包含 n-shot (4/8/16/32) 对图像-标题以及一个测试图像,并使用 VLM 自回归生成标题(例如 Flamingo 或 Otter)。
- 使用 MSCOCO(Karpathy 划分)以 CIDEr 作为主要指标进行评估;改变 shot 数量并分析描述性或语言模式如何影响结果。
- 通过折线图/直方图呈现实验结果,并辅以详细的数值数据。
- 提供实用指南和一个可选的 MGCA 工作流,以锚点 MGC 指引选择真实标题。
实验结果
研究问题
- RQ1不同的多模态上下文配置(图像选择与标题分配)如何影响少-shot 图像描述的性能?
- RQ2标题质量和描述性是否与图像相似度交互,决定 VLM 的性能?
- RQ3在何种情况下将模型生成的标题作为锚点有利于选择真实标题?
- RQ4Iterative Prompting 是否能缓解有限或无真实标题的情形,以及需要多少次迭代更有利?
- RQ5在相似上下文图像导致标题复用的情况下,哪些实用策略可以最小化捷径推断?
主要发现
| Iter | MGC-VLM(0) | MGC-VLM(32) |
|---|---|---|
| 1 | 63.0 | 85.3 |
| 2 | 74.1 | 80.5 |
| 3 | 79.9 | 79.4 |
| 4 | 79.3 | 78.9 |
| 5 | 77.3 | 77.1 |
- 标题质量的影响具有细微性:在某些图像选择条件下,合理、简洁的语言模式可能胜过更具描述性但更复杂的标题。
- 基于相似性的视频检索在标题描述充分时有帮助,但上下文与测试图像之间的高度相似可能触发捷径推断,降低真正的描述学习。
- MGCA 相较仅使用 GTC 的提升是一致的,平均 CIDEr 增益取决于锚点类型在 3.2–8.8 之间,且在与 SIIR-CLIP 与强锚点结合时最高可提升 20.9 CIDEr。
- Iterative Prompting 能在少量迭代下稳定;在某些设置下,两次 IP 可以与使用所有真实标题相媲美甚至超越。
- 最优策略(SIIR-CLIP + MGCA,且高质量 MGC 锚点)产生最大的平均 CIDEr 提升(相比随机基线提升 20.9)。
- 两张开放结果表格展示跨配置的具体 CIDEr 结果:表 1 显示 MGC-VLM 锚点的迭代 CIDEr 分数;表 2 演示带上下文图像时捷径推断的影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。