[论文解读] GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?
本文评估 GPT-4 的语言能力与视觉能力在对图片、视频和点云的零样本视觉识别上的表现,覆盖 16 个基准数据集,结果显示 GPT-4 的提示能提升文本基础的零样本识别,GPT-4V 相对于大型 CLIP 模型具中等到较高的性能。
This paper does not present a novel method. Instead, it delves into an essential, yet must-know baseline in light of the latest advancements in Generative Artificial Intelligence (GenAI): the utilization of GPT-4 for visual understanding. Our study centers on the evaluation of GPT-4's linguistic and visual capabilities in zero-shot visual recognition tasks: Firstly, we explore the potential of its generated rich textual descriptions across various categories to enhance recognition performance without any training. Secondly, we evaluate GPT-4's visual proficiency in directly recognizing diverse visual content. We conducted extensive experiments to systematically evaluate GPT-4's performance across images, videos, and point clouds, using 16 benchmark datasets to measure top-1 and top-5 accuracy. Our findings show that GPT-4, enhanced with rich linguistic descriptions, significantly improves zero-shot recognition, offering an average top-1 accuracy increase of 7% across all datasets. GPT-4 excels in visual recognition, outshining OpenAI-CLIP's ViT-L and rivaling EVA-CLIP's ViT-E, particularly in video datasets HMDB-51 and UCF-101, where it leads by 22% and 9%, respectively. We hope this research contributes valuable data points and experience for future studies. We release our code at https://github.com/whwu95/GPT4Vis.
研究动机与目标
- 评估 GPT-4 的语言能力如何通过更丰富的类别描述来提升零样本视觉识别。
- 评估 GPT-4V 在图片、视频和点云上的零样本视觉识别性能。
- 比较 GPT-4V 与领先的视-语言模型(CLIP 与 EVA-CLIP)在标准化基准上的表现。
提出的方法
- 用 GPT-4 为每个类别生成多句描述性文本,以形成文本嵌入,与 CLIP 的视觉嵌入进行对比。
- 使用 CLIP 的冻结文本编码器和图像编码器计算 GPT 生成描述与视觉嵌入之间的相似度,随后进行 Softmax 归一化并取平均。
- 通过让 GPT-4V 对输入的图片/视频/点云给出能够按相关性对类别排序的提示,评估其零样本识别的 Top-1 与 Top-5 准确率。
- 将视频和点云转化为图像集(视频采用均匀帧采样;点云采用多视图渲染)以输入到 CLIP/GPT-4V 流程中。
- 在 16 个数据集(包括图片、视频、点云)上,与 CLIP 基线(ViT-B/32、ViT-B/16、ViT-L/14)以及 EVA-CLIP ViT-E/14 进行对比。
- 对 GPT 生成的句子数量和提示设计进行消融实验,以评估对零样本性能的影响。
实验结果
研究问题
- RQ1GPT-4 是否能够生成比仅使用类别名称更丰富的文本描述,从而提升零样本识别?
- RQ2与强大的视觉-语言基线相比,GPT-4V 在图片、视频和点云上的零样本识别表现如何?
- RQ3提示设计和句子数量对跨模态零样本性能有何影响?
主要发现
- GPT-4 生成的描述性提示在许多数据集上显著提升了零样本识别,平均 Top-1 提升约 7% 相对于 CLIP 基线。
- GPT-4V 在 16 个数据集上的平均零样本性能在 Top-1 准确率方面介于 OpenAI-CLIP ViT-L 与 EVA-CLIP ViT-E 之间。
- 在若干图像数据集(如 RAF-DB、Caltech101)上 GPT-4V 表现出色,在视频数据集(HMDB-51、UCF-101)在进行帧采样和使用提示时也显示出显著提升。
- GPT 提示对类别多样性更高或描述更详细的数据集带来更大改进,且将手工提示与 GPT 生成的提示结合往往取得最佳结果(在 11 个数据集上)。
- 在视频数据集中,GPT-4V 在 Kinetics-400、HMDB-51、UCF-101 等数据集上表现出强劲性能,点云在多视角下也取得了具有竞争力的结果。
- 时序建模方面的差距(如 Something-Something V1)限制了 GPT-4V 对需要运动理解的动作的表现,凸显了时序建模的局限性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。