[논문 리뷰] GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?
본 논문은 16개 벤치마크에서 이미지, 비디오, 포인트 클라우드에 대해 제로샷 시각 인식에 대한 GPT-4의 언어적 및 시각적 능력을 평가하며, GPT-4 프롬프트가 텍스트 기반 제로샷 인식을 향상시키고 GPT-4V가 대형 CLIP 모델에 비해 중상위 수준의 성능을 달성한다는 것을 보인다.
This paper does not present a novel method. Instead, it delves into an essential, yet must-know baseline in light of the latest advancements in Generative Artificial Intelligence (GenAI): the utilization of GPT-4 for visual understanding. Our study centers on the evaluation of GPT-4's linguistic and visual capabilities in zero-shot visual recognition tasks: Firstly, we explore the potential of its generated rich textual descriptions across various categories to enhance recognition performance without any training. Secondly, we evaluate GPT-4's visual proficiency in directly recognizing diverse visual content. We conducted extensive experiments to systematically evaluate GPT-4's performance across images, videos, and point clouds, using 16 benchmark datasets to measure top-1 and top-5 accuracy. Our findings show that GPT-4, enhanced with rich linguistic descriptions, significantly improves zero-shot recognition, offering an average top-1 accuracy increase of 7% across all datasets. GPT-4 excels in visual recognition, outshining OpenAI-CLIP's ViT-L and rivaling EVA-CLIP's ViT-E, particularly in video datasets HMDB-51 and UCF-101, where it leads by 22% and 9%, respectively. We hope this research contributes valuable data points and experience for future studies. We release our code at https://github.com/whwu95/GPT4Vis.
연구 동기 및 목표
- GPT-4의 언어 능력이 더 풍부한 범주 설명을 통해 제로샷 시각 인식을 향상시킬 수 있는지 평가한다.
- GPT-4V의 제로샷 시각 인식 성능을 이미지, 비디오, 포인트 클라우드에서 평가한다.
- 표준화된 벤치마크에서 GPT-4V를 Leading vision-language 모델(CLP, EVA-CLIP)과 비교한다.
제안 방법
- 각 범주에 대해 GPT-4로 여러 서술 문장을 생성하여 CLIP 시각 임베딩과 비교하기 위한 텍스트 임베딩을 형성한다.
- GPT가 생성한 설명과 시각 임베딩 간의 유사도를 CLIP의 고정 텍스트/이미지 인코더를 사용해 계산하고, 그 후 소프트맥스 정규화와 평균화를 수행한다.
- GPT-4V를 이미저/비디오/포인트 클라우드에 대해 비주얼 입력과의 관련성에 따라 범주를 랭킹하는 프롬프트를 사용하여 상위 1 및 상위 5 정확도를 얻는다.
- 비디오를 이미지 세트로 변환(비디오의 균일한 프레임 샘플링; 포인트 클라우드는 다중 시점 렌더링)하여 CLIP/GPT-4V 파이프라인에 입력한다.
- 16개의 데이터셋(이미지, 비디오, 포인트 클라우드)에 대해 CLIP 베이스라인(ViT-B/32, ViT-B/16, ViT-L/14) 및 EVA-CLIP ViT-E/14와 비교한다.
- 제로샷 성능에 대한 GPT-생성 문장 수와 프롬프트 설계의 영향에 대한 제거 실험(ablation)을 제공한다.
실험 결과
연구 질문
- RQ1GPT-4가 범주 이름만 사용하는 것보다 더 풍부한 텍스트 설명을 생성하여 제로샷 인식을 향상시키는가?
- RQ2GPT-4V는 이미지, 비디오, 포인트 클라우드에서 강력한 비전-언어 바탕선과 비교하여 제로샷 인식에서 어떻게 수행하는가?
- RQ3프롬프트 설계 및 문장 수가 모달리티 전반의 제로샷 성능에 어떤 영향을 미치는가?
주요 결과
- GPT-4가 생성한 서술형 프롬프트는 여러 데이터셋에서 제로샷 인식을 크게 향상시키며, 평균 Top-1 향상은 CLIP 베이스라인 대비 약 7%에 이른다.
- GPT-4V의 16개 데이터셋에 대한 평균 제로샷 성능은 Top-1 정확도에서 OpenAI-CLIP ViT-L과 EVA-CLIP ViT-E 사이에 위치한다.
- GPT-4V는 이미지 데이터셋에서 (예: RAF-DB, Caltech101) 우수하며, 프레임 샘플링 및 프롬프트를 사용할 때 비디오 데이터셋(HMDB-51, UCF-101)에서도 뚜렷한 이점을 보인다.
- GPT 프롬프트는 더 다양하거나 자세한 범주를 가진 데이터셋에서 더 큰 향상을 보이며, 핸드메이드 프롬프트와 GPT 생성 프롬프트를 결합하면 종종 최상의 결과를 낳는다(11개 데이터셋에서).
- GPT-4V는 비디오 중에서 Kinetics-400, HMDB-51, UCF-101에서 강력한 성능을 보이며, 포인트 클라우드는 다수의 시점으로 아이덴티티를 확보해 경쟁력 있는 결과를 얻는다.
- 시간적 모델링의 간극(예: Something-Something V1)은 모션 이해가 필요한 행동에서 GPT-4V를 제한하며, 시간적 모델링을 한계로 지적한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.