QUICK REVIEW

[论文解读] GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?

Wenhao Wu, Huanjin Yao|arXiv (Cornell University)|Nov 27, 2023

Multimodal Machine Learning Applications被引用 9

一句话总结

本文评估 GPT-4 的语言能力与视觉能力在对图片、视频和点云的零样本视觉识别上的表现，覆盖 16 个基准数据集，结果显示 GPT-4 的提示能提升文本基础的零样本识别，GPT-4V 相对于大型 CLIP 模型具中等到较高的性能。

ABSTRACT

This paper does not present a novel method. Instead, it delves into an essential, yet must-know baseline in light of the latest advancements in Generative Artificial Intelligence (GenAI): the utilization of GPT-4 for visual understanding. Our study centers on the evaluation of GPT-4's linguistic and visual capabilities in zero-shot visual recognition tasks: Firstly, we explore the potential of its generated rich textual descriptions across various categories to enhance recognition performance without any training. Secondly, we evaluate GPT-4's visual proficiency in directly recognizing diverse visual content. We conducted extensive experiments to systematically evaluate GPT-4's performance across images, videos, and point clouds, using 16 benchmark datasets to measure top-1 and top-5 accuracy. Our findings show that GPT-4, enhanced with rich linguistic descriptions, significantly improves zero-shot recognition, offering an average top-1 accuracy increase of 7% across all datasets. GPT-4 excels in visual recognition, outshining OpenAI-CLIP's ViT-L and rivaling EVA-CLIP's ViT-E, particularly in video datasets HMDB-51 and UCF-101, where it leads by 22% and 9%, respectively. We hope this research contributes valuable data points and experience for future studies. We release our code at https://github.com/whwu95/GPT4Vis.

研究动机与目标

评估 GPT-4 的语言能力如何通过更丰富的类别描述来提升零样本视觉识别。
评估 GPT-4V 在图片、视频和点云上的零样本视觉识别性能。
比较 GPT-4V 与领先的视-语言模型（CLIP 与 EVA-CLIP）在标准化基准上的表现。

提出的方法

用 GPT-4 为每个类别生成多句描述性文本，以形成文本嵌入，与 CLIP 的视觉嵌入进行对比。
使用 CLIP 的冻结文本编码器和图像编码器计算 GPT 生成描述与视觉嵌入之间的相似度，随后进行 Softmax 归一化并取平均。
通过让 GPT-4V 对输入的图片/视频/点云给出能够按相关性对类别排序的提示，评估其零样本识别的 Top-1 与 Top-5 准确率。
将视频和点云转化为图像集（视频采用均匀帧采样；点云采用多视图渲染）以输入到 CLIP/GPT-4V 流程中。
在 16 个数据集（包括图片、视频、点云）上，与 CLIP 基线（ViT-B/32、ViT-B/16、ViT-L/14）以及 EVA-CLIP ViT-E/14 进行对比。
对 GPT 生成的句子数量和提示设计进行消融实验，以评估对零样本性能的影响。

实验结果

研究问题

RQ1GPT-4 是否能够生成比仅使用类别名称更丰富的文本描述，从而提升零样本识别？
RQ2与强大的视觉-语言基线相比，GPT-4V 在图片、视频和点云上的零样本识别表现如何？
RQ3提示设计和句子数量对跨模态零样本性能有何影响？

主要发现

GPT-4 生成的描述性提示在许多数据集上显著提升了零样本识别，平均 Top-1 提升约 7% 相对于 CLIP 基线。
GPT-4V 在 16 个数据集上的平均零样本性能在 Top-1 准确率方面介于 OpenAI-CLIP ViT-L 与 EVA-CLIP ViT-E 之间。
在若干图像数据集（如 RAF-DB、Caltech101）上 GPT-4V 表现出色，在视频数据集（HMDB-51、UCF-101）在进行帧采样和使用提示时也显示出显著提升。
GPT 提示对类别多样性更高或描述更详细的数据集带来更大改进，且将手工提示与 GPT 生成的提示结合往往取得最佳结果（在 11 个数据集上）。
在视频数据集中，GPT-4V 在 Kinetics-400、HMDB-51、UCF-101 等数据集上表现出强劲性能，点云在多视角下也取得了具有竞争力的结果。
时序建模方面的差距（如 Something-Something V1）限制了 GPT-4V 对需要运动理解的动作的表现，凸显了时序建模的局限性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。