QUICK REVIEW

[논문 리뷰] Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks

Melanie Mitchell, Alessandro B. Palmarini|arXiv (Cornell University)|2023. 11. 14.

Topic Modeling인용 수 20

한 줄 요약

본 논문은 ConceptARC의 추상적 추론에 대해 텍스트 전용 GPT-4와 다중 모달 GPT-4V를 평가하고, GPT-4가 원샷 프롬프트로 개선되지만 인간 및 전문 알고리즘 아래에 머물며, GPT-4V는 특히 최소 시각 작업에서 더 성능이 떨어진다고 밝혔다.

ABSTRACT

We explore the abstract reasoning abilities of text-only and multimodal versions of GPT-4, using the ConceptARC benchmark [10], which is designed to evaluate robust understanding and reasoning with core-knowledge concepts. We extend the work of Moskvichev et al. [10] by evaluating GPT-4 on more detailed, one-shot prompting (rather than simple, zero-shot prompts) with text versions of ConceptARC tasks, and by evaluating GPT-4V, the multimodal version of GPT-4, on zero- and one-shot prompts using image versions of the simplest tasks. Our experimental results support the conclusion that neither version of GPT-4 has developed robust abstraction abilities at humanlike levels.

연구 동기 및 목표

GPT-4(텍스트)가 더 풍부한 원샷 프롬프트로 ConceptARC에서 강건한 추상 추론을 개발할 수 있는지 평가한다.
다중 모달 GPT-4V를 시각적 ConceptARC 작업에서 평가하여 텍스트 기반 GPT-4와 비교한다.
ConceptARC의 개념 그룹에서 인간 기준선과의 비교를 통해 모델 성능을 비교한다.
최소(시각적) 작업이 다중 모달 모델에 유리한지 조사한다.
프롬핑과 작업 표현 방식이 모델의 추상화 능력에 어떤 영향을 미치는지 평가한다.

제안 방법

핵심 개념으로 구성된 격자 기반 추상 추론 과제 데이터 세트인 ConceptARC를 사용한다.
모든 480개 ConceptARC 작업에 대해 해결된 예를 포함한 상세한 원샷 프롬프트와 함께 텍스트 전용 GPT-4를 테스트한다.
이미지 표현을 사용하고 제로샷과 원샷 프롬프트를 모두 적용하여 최소 ConceptARC 작업에서 GPT-4V를 테스트한다.
이전 ConceptARC 연구의 인간 성능과 GPT-4 및 GPT-4V의 결과를 비교한다.
개념별 및 전체 정확도, 최소 작업 기준선을 포함해 보고한다.
보충 자료에서 프롬프트 및 실험 설정 세부 정보를 제공한다.

실험 결과

연구 질문

RQ1더 정보가 풍부한 원샷 프롬프트가 ConceptARC에서 GPT-4의 추상 추론 성능을 인간 수준으로 향상시킬 수 있는가?
RQ2GPT-4V의 다중 모달 입력이 ConceptARC에서 텍스트 전용 GPT-4와 비교할 때 추상 추론 성능을 향상시키는가 또는 저하시키는가?
RQ3ConceptARC의 개념 그룹과 최소 작업에서 GPT-4와 GPT-4V가 인간 성능과 어떻게 비교되는가?
RQ4성능 차이가 현재 LLM에 강건한 추상화 능력이 존재한다는 것을 시사하는가?
RQ5최소한의 시각적으로 표현된 작업이 LLM에게 더 쉬운가, 그리고 이러한 경우에 다중 모달이 도움이 되는가?

주요 결과

개념	사람들	GPT-4 Temp=0	GPT-4 Temp=0.5	모든 개념
All concepts	0.91	0.33	0.33
All concepts (Table 1)	0.91	0.33	0.33

GPT-4의 원샷 프롬프팅은 이전의 제로샷 결과에 비해 ConceptARC 텍스트 작업의 정확도를 크게 향상시키지만 여전히 인간 성능 아래에 머문다.
향상된 프롬프팅에도 불구하고 GPT-4는 ConceptARC에서 여전히 강건한 추상 추론에 미치지 못한다.
최소 시각 ConceptARC 작업에서 GPT-4V의 성능은 텍스트 전용 GPT-4 결과보다 현저히 낮다.
최소 작업에서 인간은 GPT-4를 크게 능가하고, GPT-4V는 두 모델에 비해 형편없이 성능을 보인다.
GPT-4V의 제로샷과 원샷 결과는 최소 작업에서 각각 0.25와 0.23으로, 매칭 설정에서 GPT-4의 텍스트 기반 결과(0.69–0.65)와는 큰 차이가 있다.
전반적으로 본 연구는 현재의 LLM들이 핵심 개념에 대해 인간과 유사한 추상 추론이나 강건한 일반화를 달성하지 못했다는 점을 재확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.