QUICK REVIEW

[논문 리뷰] Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

Feng Li, Hao Zhang|arXiv (Cornell University)|2022. 03. 03.

Multimodal Machine Learning Applications인용 수 30

한 줄 요약

본 논문은 세 가지 시대에 걸쳐 비전-언어 지능을 조사한다—작업-특정 방법, 비전-언어 사전학습, 그리고 대규모 모델—핵심 구성요소와 향후 방향을 개요로 제시한다.

ABSTRACT

This paper presents a comprehensive survey of vision-language (VL) intelligence from the perspective of time. This survey is inspired by the remarkable progress in both computer vision and natural language processing, and recent trends shifting from single modality processing to multiple modality comprehension. We summarize the development in this field into three time periods, namely task-specific methods, vision-language pre-training (VLP) methods, and larger models empowered by large-scale weakly-labeled data. We first take some common VL tasks as examples to introduce the development of task-specific methods. Then we focus on VLP methods and comprehensively review key components of the model structures and training methods. After that, we show how recent work utilizes large-scale raw image-text data to learn language-aligned visual representations that generalize better on zero or few shot learning tasks. Finally, we discuss some potential future trends towards modality cooperation, unified representation, and knowledge incorporation. We believe that this review will be of help for researchers and practitioners of AI and ML, especially those interested in computer vision and natural language processing.

연구 동기 및 목표

비전-언어 학습의 세 가지 역사적 시기를 추적한다(작업-특정 방법, 비전-언어 사전학습, 그리고 대규모 약하게 라벨링된 데이터).
주요 VL 작업들(예: 이미지 캡션 생성, VQA, 이미지-텍스트 매칭)과 그 발전을 분석한다.
비전-언어 사전학습(VLP) 패러다임과 그 핵심 구성요소들(시각적/텍스트 임베딩, 모달리티 융합, 트랜스포머 기반 학습)을 설명한다.
대규모 데이터와 약한 감독 방식이 제로샷 및 소샷 일반화를 어떻게 가능하게 하는지 논의한다.
모달리티 협력, 통합 표현, 지식 도입의 미래 경향을 개요로 제시한다.

제안 방법

작업-특정 VL 문제를 검토하고 입력/출력, 데이터셋, 지표 및 주류 방법을 요약한다.
비전-언어 사전학습(VLP) 패러다임과 그 핵심 구성요소들(시각적/텍스트 임베딩, 모달리티 융합, 트랜스포머 기반 학습)을 설명한다.
단일 스트림 vs 이중 스트림 VLP 모델 아키텍처와 교차 모달 주의 메커니즘을 논의한다.
대규모 이미지-텍스트 데이터와 대조학습이 언어 정렬 시각 표현을 어떻게 가능하게 하는지 기술한다.
사전학습이 하위 작업 전이와 제로샷/소샷 능력을 가능하게 하는 역할을 요약한다.

실험 결과

연구 질문

RQ1주요 작업-특정 VL 문제는 무엇이며 어떻게 발전해 왔는가?
RQ2비전-언어 사전학습 모델은 어떻게 공동 표현을 학습하고, 어느 아키텍처 패턴을 보이나?
RQ3대규모 약하게 라벨링된 이미지-텍스트 데이터가 제로샷 및 소샷 일반화에 미치는 영향은 무엇인가?
RQ4모달리티 협력, 통합 표현, 지식 도입의 향후 경향은 무엇인가?

주요 결과

VL 연구는 세 단계로 진행된다: 작업-특정 방법, VLP 기반 공동 표현, 그리고 약하게 라벨링된 데이터를 이용한 대규모 모델 접근.
VLP 모델은 사전학습을 통해 객체 수준의, 언어로 정렬된, 의미가 풍부한 시각 표현을 목표로 한다.
트랜스포머 기반 아키텍처와 교차 모달 마스킹/학습이 성공적인 VL 사전학습을 견인한다.
대규모 이미지-텍스트 데이터와 대조학습이 강력한 제로샷 및 소샷 능력을 뒷받침한다.
모델 아키텍처는 일반적으로 이중 스트림( VE/TE를 분리하고 융합을 선택적으로 수행)과 단일 스트림(통합 인코더) 설계로 나뉜다.
지역 기반 특징(예: Faster R-CNN)과 주의 메커니즘이 VQA와 캡션 생성과 같은 VL 작업을 크게 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.