[论文解读] PromptCap: Prompt-Guided Task-Aware Image Captioning
PromptCap 在自然语言提示引导下创建面向问题的字幕,桥接图像与黑箱 LMs,在无需对端到端 LM 微调的情况下,在基于知识的 VQA 上达到最先进结果。
Knowledge-based visual question answering (VQA) involves questions that require world knowledge beyond the image to yield the correct answer. Large language models (LMs) like GPT-3 are particularly helpful for this task because of their strong knowledge retrieval and reasoning capabilities. To enable LM to understand images, prior work uses a captioning model to convert images into text. However, when summarizing an image in a single caption sentence, which visual entities to describe are often underspecified. Generic image captions often miss visual details essential for the LM to answer visual questions correctly. To address this challenge, we propose PromptCap (Prompt-guided image Captioning), a captioning model designed to serve as a better connector between images and black-box LMs. Different from generic captions, PromptCap takes a natural-language prompt to control the visual entities to describe in the generated caption. The prompt contains a question that the caption should aid in answering. To avoid extra annotation, PromptCap is trained by examples synthesized with GPT-3 and existing datasets. We demonstrate PromptCap's effectiveness on an existing pipeline in which GPT-3 is prompted with image captions to carry out VQA. PromptCap outperforms generic captions by a large margin and achieves state-of-the-art accuracy on knowledge-based VQA tasks (60.4% on OK-VQA and 59.6% on A-OKVQA). Zero-shot results on WebQA show that PromptCap generalizes well to unseen domains.
研究动机与目标
- 促进需要外部世界知识来回答问题的基于知识的 VQA。
- 解决通用字幕未能捕捉到用于与语言模型进行 VQA 所需的关键视觉细节的空缺。
- 提出一个提示条件化的字幕模型来描述与任务相关的视觉内容。
- 开发一个使用 GPT-3 的数据合成与筛选管道,在无需额外标注的情况下训练字幕模型。
- 评估 PromptCap 与 GPT-3 结合用于 VQA,并评估对新领域的泛化能力。
提出的方法
- 引入 PromptCap,其生成的字幕是以包含目标问题的自然语言提示为条件。
- 通过使用 GPT-3 的上下文学习将 VQA 的问题-答案对转换为提示引导的字幕示例,从而合成训练数据。
- 使用基于软性 VQA 精度的机制对 GPT-3 生成的字幕进行筛选,以挑选高质量的训练样本。
- 微调基于 OFA 的字幕模型,使其能够从图像输入和提示生成提示引导的字幕。
- 将 PromptCap 的字幕作为输入,在 PICa 风格的管道中通过在-context 学习让 GPT-3 进行 VQA(无需对语言模型进行微调)。
- 通过使用基于 CLIP 的相似性来选择与测试实例相似的在-context 示例,从而改进 GPT-3 的在-context 学习。
实验结果
研究问题
- RQ1具备问题感知、提示引导的字幕是否能够提升黑箱语言模型执行基于知识的 VQA 的能力?
- RQ2提示引导的字幕是否在帮助 GPT-3 回答 VQA 问题方面优于通用字幕?
- RQ3在对 WebQA 等未见领域上,PromptCap 在无需特定任务微调的情况下的泛化能力如何?
- RQ4GPT-3、提示设计以及在-context 示例选择对整体 VQA 性能的贡献是什么?
主要发现
- PromptCap 的字幕在与 GPT-3 搭配时,在 OK-VQA(60.4% 准确率)和 A-OKVQA(59.6% 直接回答;73.1% 多项选择)上达到最先进的结果。
- PromptCap 相较于通用 OFA 字幕(OFA-Cap)在 OK-VQA 上提升 3.8%,在 A-OKVQA 上提升 5.3%,在 VQAv2 上提升 9.2%。
- GPT-3 在基于知识的 VQA 上相对于替代语言模型(如 Flan-T5-XXL)带来显著提升,而在标准 VQAv2 上的提升较小。
- PromptCap 在 WebQA 的 8-shot in-context learning 中实现泛化,在图像查询上超过使用 Oracle 来源的基线。
- 基于 CLIP 的检索相似在-context 示例进一步提升 GPT-3 的 VQA 性能。
- 定性分析表明 PromptCap 能够引出与问题相关的细节(例如品牌、颜色),从而使 GPT-3 给出正确答案,而通用字幕往往失败。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。