[논문 리뷰] An Early Evaluation of GPT-4V(ision)
본 연구는 GPT-4V(ison) across visual understanding, language understanding, multimodal puzzles, and other modalities, revealing strengths in English visual tasks and notable limitations (e.g., Chinese text in images, inconsistent refusals, and poorer language benchmarks vs GPT-4 API).
In this paper, we evaluate different abilities of GPT-4V including visual understanding, language understanding, visual puzzle solving, and understanding of other modalities such as depth, thermal, video, and audio. To estimate GPT-4V's performance, we manually construct 656 test instances and carefully evaluate the results of GPT-4V. The highlights of our findings are as follows: (1) GPT-4V exhibits impressive performance on English visual-centric benchmarks but fails to recognize simple Chinese texts in the images; (2) GPT-4V shows inconsistent refusal behavior when answering questions related to sensitive traits such as gender, race, and age; (3) GPT-4V obtains worse results than GPT-4 (API) on language understanding tasks including general language understanding benchmarks and visual commonsense knowledge evaluation benchmarks; (4) Few-shot prompting can improve GPT-4V's performance on both visual understanding and language understanding; (5) GPT-4V struggles to find the nuances between two similar images and solve the easy math picture puzzles; (6) GPT-4V shows non-trivial performance on the tasks of similar modalities to image, such as video and thermal. Our experimental results reveal the ability and limitations of GPT-4V and we hope our paper can provide some insights into the application and research of GPT-4V.
연구 동기 및 목표
- GPT-4V의 시각 중심 벤치마크(캡션 작성/VQA)에서의 성능을 평가하고 SOTA 다중모달 LLM과 비교한다.
- 시각 인식을 추가한 후 언어 이해 및 시각적 상식/세계 지식을 평가한다.
- few-shot 예시가 여러 과제에 걸쳐 GPT-4V의 성능을 향상시키는지 평가한다.
- 깊이(depth), thermal, video, 및 audio 등 다른 모달리티를 다루는 GPT-4V의 능력과 시각 퍼즐 해결 능력을 탐구한다.
- GPT-4V를 안내하기 위한 한계점 및 프롬프트 기반 전략을 조사한다.
제안 방법
- 시각 이해, 언어 이해, 시각 퍼즐 풀이, 및 기타 모달리티를 다루는 수동으로 구축된 656개의 테스트 인스턴스.
- GPT-4V를 Qwen-VL-Chat 등의 베이스라인과 여러 데이터셋(Nocaps, Flickr30K, VQAv2, OKVQA, GQA, ScienceQA, VizWiz, OCR-VQA)에서 비교했다.
- 점수 산정에 영향을 주는 GPT-4V의 장황한 출력 때문에 자동 지표 외에 인간 평가를 사용했다.
- GPT-4V가 최대 4장의 이미지를 허용하므로 최대 3개의 예시를 사용한 few-shot 프롬프트를 적용했다.
- 데이터셋별 프롬프트를 사용하여 depth, thermal, video, 및 audio에 대한 과 tasks를 만들어 다른 모달리티를 평가했다.
- 일관되지 않은 거절 응답, 중국어 텍스트 인식 실패, 수학-그림 퍼즐의 난이도 등의 한계를 탐색했다.
실험 결과
연구 질문
- RQ1현재 SOTA 다중모달 LLM과 비교했을 때 GPT-4V의 시각 중심 벤치마크(캡션 작성 및 VQA)에서의 성능은 어떤가?
- RQ2시각 인식이 추가된 후 GPT-4V가 언어 이해를 유지하고 시각적 상식 및 물리 지식을 더 잘 파악할 수 있는가?
- RQ3GPT-4V가 in-context 또는 few-shot 프롬프트를 통해 예시로 이점을 얻는가?
- RQ4벤치마크 성능이 높고 평가의 격차가 있을 수 있는 다중모달 LLM은 어떻게 평가되어야 하는가?
- RQ5GPT-4V는 이미지 외에 다른 모달리티(depth, thermal, video, audio)를 인지할 수 있는가?
주요 결과
- GPT-4V는 영어 시각 중심 벤치마크에서 매우 잘 수행하지만 이미지 속 중국어 텍스트를 인식하는 데 실패한다.
- GPT-4V는 성별, 인종, 연령 등 민감한 속성에 대해 일관되지 않은 거절 행동을 보이며 일부 과제에 영향을 준다.
- 언어 이해 벤치마크에서 직접 비교하면 GPT-4 (API)보다 자주 성능이 떨어지지만, few-shot 프롬프트가 성능을 향상시킬 수 있다.
- few-shot 프롬프트는 시각 과제와 일부 언어 과제에서 GPT-4V의 성능을 향상시키며, 맥락 내 학습 능력을 시사한다.
- 유사한 이미지 간의 뉘앙스 차이와 쉬운 수학 그림 퍼즐에서 어려움을 겪지만, depth, thermal, video, and audio와 같은 다른 모달리티에서는 의미 있는 수준의 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.