Skip to main content
QUICK REVIEW

[논문 리뷰] Sequential Modeling Enables Scalable Learning for Large Vision Models

Yutong Bai, Xinyang Geng|arXiv (Cornell University)|2023. 12. 01.
Multimodal Machine Learning Applications인용 수 11
한 줄 요약

이 논문은 대형 비전 모델(3B 파라미터)을 통일된 시각-토큰 시퀀스 형식인 visual sentences로 학습시키며, 1.64B 이미지와 420B 토큰을 사용해 픽셀-단 데이터에서 학습하고 다수의 비전 태스크에 대해 다양한 프롬프트를 가능하게 한다.

ABSTRACT

We introduce a novel sequential modeling approach which enables learning a Large Vision Model (LVM) without making use of any linguistic data. To do this, we define a common format, "visual sentences", in which we can represent raw images and videos as well as annotated data sources such as semantic segmentations and depth reconstructions without needing any meta-knowledge beyond the pixels. Once this wide variety of visual data (comprising 420 billion tokens) is represented as sequences, the model can be trained to minimize a cross-entropy loss for next token prediction. By training across various scales of model architecture and data diversity, we provide empirical evidence that our models scale effectively. Many different vision tasks can be solved by designing suitable visual prompts at test time.

연구 동기 및 목표

  • 언어 편향 없이 다양한 시각 데이터를 표현하기 위한 unified 데이터 포맷인 visual sentences를 정의한다(이미지, 비디오 및 주석 포함).
  • 시퀀스의 다음 토큰 예측으로 학습하는 대형 트랜스포머 기반 모델을 구축한다.
  • 매우 크고 다양한 시각 데이터셋(UVDv1)에서 여러 모델 크기를 학습시켜 스케일링 특성을 실증한다.
  • 테스트 시 시각 프롬프트를 통해 단일 모델에서 다양한 다운스트림 비전 능력을 이끌어낼 수 있음을 보인다.

제안 방법

  • 학습된 VQGAN 기반 시각 토크나이저(이미지당 256 토큰)를 통해 원시 이미지, 비디오 및 주석을 시퀀스로 시각 토큰으로 표현한다.
  • 여러 이미지의 토큰을 하나의 visual sentence에서 결합해 트랜스포머의 1D 토큰 시퀀스를 형성한다.
  • causal Transformer(아키텍처는 LLaMA에 유사)로 420B 토큰(1.64B 이미지)에서 next-token cross-entropy 손실을 사용해 학습하고, Unified Vision Dataset v1 (UVDv1)에서 한 에폭을 수행한다.
  • 모델 크기(300M, 600M, 1B, 3B 파라미터)와 스케일링 동작 및 다운스트림 태스크 성능을 탐색한다.
  • 부분 시각 문장을 이용해 추론을 가능하게 하며, 시각 프롬프트가 태스크를 정의하면 모델이 자동회귀적으로 출력을 생성한다.

실험 결과

연구 질문

  • RQ1언어 없이도 대형 시각 모델이 순수 시각 데이터만으로 다양하게 표현된 데이터를 통해 효과적으로 학습할 수 있는가?
  • RQ2모델 크기와 데이터셋 규모가 visual sentences의 next-token 예측으로 학습될 때, 학습 손실과 다운스트림 비전 태스크에 어떤 영향을 미치는가?
  • RQ3테스트 시 시각 프롬프팅이 비전 태스크 전반에 걸친 유연한 다중 태스크 추론 및 생성을 얼마나 가능하게 하는가?
  • RQ4프롬프팅을 통해 보지 못한 태스크 및 분포외 입력으로 일반화하는가?
  • RQ5다운스트림 성능에 각 데이터 구성요소(이미지, 비디오, 주석)의 기여도는 무엇인가?

주요 결과

  • 학습 중 손실(혼란도)이 감소하고 모델 크기가 커질수록 더 빨리 개선되며, 강한 확장성을 시사한다.
  • 더 큰 모델은 5-shot 설정에서 의미론적 분할, 깊이 추정, 표면 법선 추정, 에지 검출 태스크에서 더 낮은 perplexity를 달성한다.
  • UVDv1에 대한 제거실험에서 각 데이터 구성요소(라벨이 없는 이미지, 비디오, 주석)가 다운스트림 성능에 긍정적으로 기여한다.
  • 순차적 프롬프트는 비디오 프레임 예측, 회전 및 범주 예측, 간단한 시각 추론 등과 같은 태스크를 가능하게 하며, 일부는 보지 못한 프롬프트에 일반화한다.
  • Pascal 3D+에서의 키포인트 검출과 같은 보지 못한 태스크에서 81.2% PCK로 일반화가 뚜렷하며, 특정 태스크에 특화된 학습 없이도 나타난다; 이 접근법은 일부 시각 프롬 prompting 기준선보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.