[논문 리뷰] Review of Large Vision Models and Visual Prompt Engineering
본 논문은 대형 시각 모델과 시각 프롬프트 엔지니어링을 개관하며 핵심 모델, 프롬프트 설계 방법, AGI에의 응용 및 해당 분야의 향후 방향을 상세히 설명합니다.
Visual prompt engineering is a fundamental technology in the field of visual and image Artificial General Intelligence, serving as a key component for achieving zero-shot capabilities. As the development of large vision models progresses, the importance of prompt engineering becomes increasingly evident. Designing suitable prompts for specific visual tasks has emerged as a meaningful research direction. This review aims to summarize the methods employed in the computer vision domain for large vision models and visual prompt engineering, exploring the latest advancements in visual prompt engineering. We present influential large models in the visual domain and a range of prompt engineering methods employed on these models. It is our hope that this review provides a comprehensive and systematic description of prompt engineering methods based on large visual models, offering valuable insights for future researchers in their exploration of this field.
연구 동기 및 목표
- Influential large visual models and their capabilities를 요약한다.
- 다양한 모달리티(image, text-image, multi-modal)에서 시각 프롬프트 엔지니어링 방법을 조사한다.
- 프롬프트가 비전 모델의 제로샷/일반화 및 AGI 응용에 미치는 영향을 논의한다.
- 시각 프례팅 연구의 도전과제, 한계점, 향후 방향을 강조한다.
제안 방법
- 'visual prompt'라는 키워드로 arXiv를 크롤링하고 컴퓨터 비전 관련 연구를 필터링했다.
- 리뷰를 기초 모델(Transformer, CLIP, SAM)과 프롬프트 패러다임(시각 프롬프트, 다중 모달 프롬프트)을 중심으로 구성했다.
- 시각 프롬프트 학습 접근법(다중 모달 프롬프트, 시각 프롬프트 튜닝)과 과제별 프롬프트 설계를 기술했다.
- AGI 맥락에서의 시각 프롬프트와 도메인 간 일반화에 대한 영향을 검토했다.
- 시각 프롬프트의 AI 시스템에 대한 미래 방향과 함의를 제시했다.
실험 결과
연구 질문
- RQ1비전 및 다중 모달 이해에서 진행 상황을 주도하는 주요 대형 시각 모델은 무엇인가?
- RQ2대형 비전 모델을 다운스트림 작업 및 AGI 응용에 맞게 조정하기 위해 어떤 프롬프트 엔지니어링 방법이 사용되는가?
- RQ3시각 프롬프트가 태스크 및 도메인 전반에서 제로샷 및 소수샷 일반화에 어떻게 기여하는가?
주요 결과
- 프롬프트 엔지니어링은 전체 재학습 없이 다양한 태스크에 대형 비전 모델을 활용하는 데 결정적이다.
- 주요 모델들(예: Transformer 기반 비전 모델, CLIP, SAM)은 시각 프롬프트와 제로샷 일반화의 발전을 뒷받침한다.
- 다중 모달 프롬프트 및 연속 프롬프트 표현은 이미지 이해 및 분할과 같은 태스크에 대한 적응성을 향상시킨다.
- 시각 프롬프트는 입력 공간 튜닝(VPT) 및 모듈식 분할 방법(SAM)을 통해 태스크 적응을 효율적으로 가능하게 한다.
- 다양한 프롬프트 전략(데이터 기반 프롬프트, 맥락 인식 프롬프트, 다양성 인식 프롬프트)은 데이터셋 및 다운스트림 시나리오 전반의 일반화를 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.