[논문 리뷰] Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks
본 논문은 ConceptARC의 추상적 추론에 대해 텍스트 전용 GPT-4와 다중 모달 GPT-4V를 평가하고, GPT-4가 원샷 프롬프트로 개선되지만 인간 및 전문 알고리즘 아래에 머물며, GPT-4V는 특히 최소 시각 작업에서 더 성능이 떨어진다고 밝혔다.
We explore the abstract reasoning abilities of text-only and multimodal versions of GPT-4, using the ConceptARC benchmark [10], which is designed to evaluate robust understanding and reasoning with core-knowledge concepts. We extend the work of Moskvichev et al. [10] by evaluating GPT-4 on more detailed, one-shot prompting (rather than simple, zero-shot prompts) with text versions of ConceptARC tasks, and by evaluating GPT-4V, the multimodal version of GPT-4, on zero- and one-shot prompts using image versions of the simplest tasks. Our experimental results support the conclusion that neither version of GPT-4 has developed robust abstraction abilities at humanlike levels.
연구 동기 및 목표
- GPT-4(텍스트)가 더 풍부한 원샷 프롬프트로 ConceptARC에서 강건한 추상 추론을 개발할 수 있는지 평가한다.
- 다중 모달 GPT-4V를 시각적 ConceptARC 작업에서 평가하여 텍스트 기반 GPT-4와 비교한다.
- ConceptARC의 개념 그룹에서 인간 기준선과의 비교를 통해 모델 성능을 비교한다.
- 최소(시각적) 작업이 다중 모달 모델에 유리한지 조사한다.
- 프롬핑과 작업 표현 방식이 모델의 추상화 능력에 어떤 영향을 미치는지 평가한다.
제안 방법
- 핵심 개념으로 구성된 격자 기반 추상 추론 과제 데이터 세트인 ConceptARC를 사용한다.
- 모든 480개 ConceptARC 작업에 대해 해결된 예를 포함한 상세한 원샷 프롬프트와 함께 텍스트 전용 GPT-4를 테스트한다.
- 이미지 표현을 사용하고 제로샷과 원샷 프롬프트를 모두 적용하여 최소 ConceptARC 작업에서 GPT-4V를 테스트한다.
- 이전 ConceptARC 연구의 인간 성능과 GPT-4 및 GPT-4V의 결과를 비교한다.
- 개념별 및 전체 정확도, 최소 작업 기준선을 포함해 보고한다.
- 보충 자료에서 프롬프트 및 실험 설정 세부 정보를 제공한다.
실험 결과
연구 질문
- RQ1더 정보가 풍부한 원샷 프롬프트가 ConceptARC에서 GPT-4의 추상 추론 성능을 인간 수준으로 향상시킬 수 있는가?
- RQ2GPT-4V의 다중 모달 입력이 ConceptARC에서 텍스트 전용 GPT-4와 비교할 때 추상 추론 성능을 향상시키는가 또는 저하시키는가?
- RQ3ConceptARC의 개념 그룹과 최소 작업에서 GPT-4와 GPT-4V가 인간 성능과 어떻게 비교되는가?
- RQ4성능 차이가 현재 LLM에 강건한 추상화 능력이 존재한다는 것을 시사하는가?
- RQ5최소한의 시각적으로 표현된 작업이 LLM에게 더 쉬운가, 그리고 이러한 경우에 다중 모달이 도움이 되는가?
주요 결과
| 개념 | 사람들 | GPT-4 Temp=0 | GPT-4 Temp=0.5 | 모든 개념 |
|---|---|---|---|---|
| All concepts | 0.91 | 0.33 | 0.33 | |
| All concepts (Table 1) | 0.91 | 0.33 | 0.33 |
- GPT-4의 원샷 프롬프팅은 이전의 제로샷 결과에 비해 ConceptARC 텍스트 작업의 정확도를 크게 향상시키지만 여전히 인간 성능 아래에 머문다.
- 향상된 프롬프팅에도 불구하고 GPT-4는 ConceptARC에서 여전히 강건한 추상 추론에 미치지 못한다.
- 최소 시각 ConceptARC 작업에서 GPT-4V의 성능은 텍스트 전용 GPT-4 결과보다 현저히 낮다.
- 최소 작업에서 인간은 GPT-4를 크게 능가하고, GPT-4V는 두 모델에 비해 형편없이 성능을 보인다.
- GPT-4V의 제로샷과 원샷 결과는 최소 작업에서 각각 0.25와 0.23으로, 매칭 설정에서 GPT-4의 텍스트 기반 결과(0.69–0.65)와는 큰 차이가 있다.
- 전반적으로 본 연구는 현재의 LLM들이 핵심 개념에 대해 인간과 유사한 추상 추론이나 강건한 일반화를 달성하지 못했다는 점을 재확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.