QUICK REVIEW

[논문 리뷰] Vision-Language Models for Vision Tasks: A Survey

Jingyi Zhang, Jiaxing Huang|arXiv (Cornell University)|2023. 04. 03.

Multimodal Machine Learning Applications인용 수 34

한 줄 요약

Vision-Language Models (VLMs)을 활용한 시각 인식에 관한 체계적 고찰로, 아키텍처, 목표, 데이터셋, 전이 학습, 지식 증류를 다루고 벤치마크 및 향후 방향을 제시합니다.

ABSTRACT

Most visual recognition studies rely heavily on crowd-labelled data in deep neural networks (DNNs) training, and they usually train a DNN for each single visual recognition task, leading to a laborious and time-consuming visual recognition paradigm. To address the two challenges, Vision-Language Models (VLMs) have been intensively investigated recently, which learns rich vision-language correlation from web-scale image-text pairs that are almost infinitely available on the Internet and enables zero-shot predictions on various visual recognition tasks with a single VLM. This paper provides a systematic review of visual language models for various visual recognition tasks, including: (1) the background that introduces the development of visual recognition paradigms; (2) the foundations of VLM that summarize the widely-adopted network architectures, pre-training objectives, and downstream tasks; (3) the widely-adopted datasets in VLM pre-training and evaluations; (4) the review and categorization of existing VLM pre-training methods, VLM transfer learning methods, and VLM knowledge distillation methods; (5) the benchmarking, analysis and discussion of the reviewed methods; (6) several research challenges and potential research directions that could be pursued in the future VLM studies for visual recognition. A project associated with this survey has been created at https://github.com/jingyi0000/VLM_survey.

연구 동기 및 목표

전통적 방식에서 비전-언어 프리트레이닝으로의 시각 인식 패러다임의 발전을 설명한다.
Zero-shot 능력을 평가하기 위해 사용되는 VLM 아키텍처, 목표 및 다운스트림 태스크를 요약한다.
VLMs를 위한 대규모 이미지-텍스트 데이터셋과 평가 벤치마크를 검토한다.
VLM 프리트레이닝, 전이 학습 및 지식 증류 방법을 범주화한다.
시각 인식을 위한 VLM 연구의 도전과 향후 방향을 강조한다.

제안 방법

CNN 기반 및 Transformer 기반 이미지 인코더를 사용하여 이미지 특징을 분류한다.
표준 Transformer 기반 언어 인코더를 사용하여 텍스트 특징을 분류한다.
대조적(contrastive), 생성적(generative), 정렬(alignment) 카테고리로 프리트레이닝 목표를 체계화하고, 형식적 손실(예: InfoNCE, L_IT, L_RW, L_MIM, L_MLM, L_MCM)을 제시한다.
VLM을 평가하기 위한 제로샷 예측, 선형 프로빙, 다운스트림 태스크(분류, 탐지, 분할, 검색, 행동 인식)를 설명한다.
프리트레이닝용 데이터셋(예: CLIP, ALIGN, LAION)과 평가용 데이터셋(예: ImageNet, COCO, PASCAL VOC)을 제시한다.
전이 학습 및 지식 증류 방법을 조사하여 VLMs를 다운스트림 비전 태스크에 적응시킨다.

실험 결과

연구 질문

RQ1대규모 이미지-텍스트 데이터로부터 비전-언어 상관관계를 어떻게 학습하여 다양한 시각 인식 태스크에서 제로샷 예측을 가능하게 하는가?
RQ2VLM에서 교차 모달 표현을 학습하기에 가장 효과적인 네트워크 아키텍처와 프리트레이닝 목표는 무엇인가?
RQ3프리트레이닝 및 평가에 사용되는 데이터셋은 무엇이며, 제로샷 및 선형 프로빙 설정에서 성능에 어떤 영향을 미치는가?
RQ4탐지 및 분할과 같은 다운스트림 태스크에 VLM을 효과적으로 활용하기 위한 전이 학습 및 지식 증류 기법은 무엇인가?
RQ5시각 인식을 위한 Vision-Language Model 연구에서 주요 도전과 향후 방향은 무엇인가?

주요 결과

Vision-Language Models은 웹 규모 데이터에서 이미지-텍스트 상관관계를 학습함으로써 여러 시각 인식 태스크에서 제로샷 예측을 가능하게 한다.
VLM 프리트레이닝은 이미지 인코더와 텍스트 인코더를 결합하고, 대조적, 생성적, 정렬 손실에 걸친 목표를 통해 교차 모달 표현을 학습한다.
다양한 대규모 이미지-텍스트 데이터셋(~예: CLIP, ALIGN, LAION) 및 보조 데이터가 VLM 학습과 다수 태스크에 대한 평가를 지원한다.
전이 학습과 지식 증류는 제로샷 활용을 넘어 다운스트림 태스크에 VLM을 적응시키는 중요한 방향이다.
이 고찰은 데이터 세트 간 벤치마킹을 제공하고 VLM 기반 시각 인식의 도전과 향후 연구 방향을 논의한다.
주요 VLM들(예: CLIP)의 제로샷 성능은 36개의 시각 인식 태스크에서 강력한 결과를 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.