QUICK REVIEW

[论文解读] Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks

Melanie Mitchell, Alessandro B. Palmarini|arXiv (Cornell University)|Nov 14, 2023

Topic Modeling被引用 20

一句话总结

该论文评估文本版 GPT-4 和多模态 GPT-4V 在 ConceptARC 上进行抽象推理，发现 GPT-4 在一次提示后有所改进，但仍低于人类和专业算法；GPT-4V 表现更差，尤其是在最小视觉任务上。

ABSTRACT

We explore the abstract reasoning abilities of text-only and multimodal versions of GPT-4, using the ConceptARC benchmark [10], which is designed to evaluate robust understanding and reasoning with core-knowledge concepts. We extend the work of Moskvichev et al. [10] by evaluating GPT-4 on more detailed, one-shot prompting (rather than simple, zero-shot prompts) with text versions of ConceptARC tasks, and by evaluating GPT-4V, the multimodal version of GPT-4, on zero- and one-shot prompts using image versions of the simplest tasks. Our experimental results support the conclusion that neither version of GPT-4 has developed robust abstraction abilities at humanlike levels.

研究动机与目标

评估 GPT-4（文本）是否能够在 ConceptARC 上通过更丰富的一-shot 提示发展出稳健的抽象推理。
评估 GPT-4V（多模态）在视觉 ConceptARC 任务上的表现，以便与基于文本的 GPT-4 进行比较。
将模型表现与 ConceptARC 概念组的人工基线进行比较。
探讨最小（视觉）任务是否有利于多模态模型。
评估提示和任务表示如何影响模型的抽象能力。

提出的方法

使用 ConceptARC，这是一个按核心概念组织的网格状抽象推理任务数据集。
在所有 480 道 ConceptARC 任务上使用包含一个已解决示例的详细一次性提示，对文本-only GPT-4 进行测试。
在最小 ConceptARC 任务上使用图像表示测试 GPT-4V，并使用零-shot 和一次性提示。
将 GPT-4 和 GPT-4V 的结果与先前 ConceptARC 研究中的人类表现进行比较。
报告概念层面的以及总体的准确率，包括最小任务基线。
在补充材料中提供提示和实验设置细节。

实验结果

研究问题

RQ1一个更具信息量的一-shot 提示是否能将 GPT-4 的 ConceptARC 抽象推理水平提升到接近人类水平？
RQ2与文本版 GPT-4 相比，GPT-4V 的多模态输入是提高还是降低 ConceptARC 的抽象推理表现？
RQ3GPT-4 和 GPT-4V 与 ConceptARC 概念组及最小任务上的人类表现相比如何？
RQ4性能差距对现有大型语言模型是否具备鲁棒抽象能力的含义是什么？
RQ5对 LLMs 来说，最小、以视觉表示的任务是否更容易，且多模态在这些情况下是否有帮助？

主要发现

Concept	Humans	GPT-4 Temp=0	GPT-4 Temp=0.5	All concepts
All concepts	0.91	0.33	0.33
All concepts (Table 1)	0.91	0.33	0.33

GPT-4 的一次性提示在 ConceptARC 文本任务的准确性上有显著提升，相较于之前的零-shot结果，但仍远低于人类表现。
尽管提示有所改进，GPT-4 仍远未达到 ConceptARC 的鲁棒抽象推理。
GPT-4V 在最小视觉 ConceptARC 任务上的表现显著差于文本版 GPT-4 的结果。
在最小任务上，人类远超 GPT-4，而 GPT-4V 相较于二者都表现不佳。
GPT-4V 的零-shot 和一次性提示在最小任务上的结果分别为 0.25 和 0.23，远低于 GPT-4 的文本结果（0.69–0.65）在匹配设置中的表现。
总体而言，该研究强化了当前的 LLMs 尚未达到人类水平的抽象推理或对核心概念的鲁棒泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。