Skip to main content
QUICK REVIEW

[논문 리뷰] LAVIS: A Library for Language-Vision Intelligence

Dongxu Li, Junnan Li|arXiv (Cornell University)|2022. 09. 15.
Multimodal Machine Learning Applications인용 수 21
한 줄 요약

LAVIS는 이미지-텍스트 및 비디오-텍스트 작업 전반에서 최첨단 언어-비전 모델을 학습, 평가, 배포하기 위한 통합 인터페이스를 제공하는 오픈 소스 라이브러리로, 방대한 데이터셋, 사전 학습 체크포인트, 실용적인 도구를 제공합니다.

ABSTRACT

We introduce LAVIS, an open-source deep learning library for LAnguage-VISion research and applications. LAVIS aims to serve as a one-stop comprehensive library that brings recent advancements in the language-vision field accessible for researchers and practitioners, as well as fertilizing future research and development. It features a unified interface to easily access state-of-the-art image-language, video-language models and common datasets. LAVIS supports training, evaluation and benchmarking on a rich variety of tasks, including multimodal classification, retrieval, captioning, visual question answering, dialogue and pre-training. In the meantime, the library is also highly extensible and configurable, facilitating future development and customization. In this technical report, we describe design principles, key components and functionalities of the library, and also present benchmarking results across common language-vision tasks. The library is available at: https://github.com/salesforce/LAVIS.

연구 동기 및 목표

  • 여러 작업과 데이터셋에 걸쳐 언어-비전 모델을 학습하고 평가하기 위한 통합적이고 모듈식 프레임워크를 제공합니다.
  • 재현 가능한 연구를 위한 사전 학습 및 미세 조정된 파운데이션 모델과 그 체크포인트에 쉽게 접근할 수 있도록 제공합니다.
  • 데이터셋 자동 다운로드, GUI 데이터셋 브라우저, 사용 준비가 된 벤치마크 및 구성으로 연구 오버헤드를 줄입니다.
  • 새로운 모델, 작업 및 데이터셋을 지원하기 위한 확장성을 촉진하고 학계와 산업계의 보다 넓은 채택을 촉진합니다.

제안 방법

  • 런너, 태스크, 데이터셋, 모델, 프로세서를 포함하는 통합적이고 모듈식 라이브러리 아키텍처를 도입합니다.
  • 20개 이상의 공용 데이터셋과 10개 이상의 태스크에 걸쳐 이미지-텍스트 및 비디오-텍스트 태스크를 지원합니다.
  • 네 가지 파운데이션 모델(ALBEF, BLIP, CLIP, ALPRO)의 30개가 넘는 사전 학습 및 태스크별 미세 조정 체크포인트에 대한 액세스를 제공합니다.
  • 사용성 및 재현성을 돕기 위한 데이터셋 다운로드 도구, GUI 데이터셋 브라우저, 데이터셋 카드, 웹 데모를 통합합니다.
  • 공식 결과에 대한 구현의 일치를 확인하고 교차 태스크 적응성을 입증하기 위한 벤치마크 재현을 수행합니다.

실험 결과

연구 질문

  • RQ1단일화된 모듈식 프레임워크가 광범위한 태스크와 데이터셋에 걸쳐 최첨단 언어-비전 모델에 쉽게 접근할 수 있게 할 수 있을까?
  • RQ2LAVIS의 재현된 벤치마크가 여러 파운데이션 모델과 태스크에 걸친 공식 모델 성능과 얼마나 잘 일치하는가?
  • RQ3언어-비전 연구의 사용성 및 재현성을 개선하는 보조 도구(자동 다운로드, GUI 브라우저, 데모)는 무엇인가?
  • RQ4엔지니어링 노력을 최소화하면서 새로운 태스크, 데이터셋, 모델을 지원하도록 라이브러리를 어느 정도까지 확장할 수 있는가?

주요 결과

  • LAVIS는 언어-비전 모델의 학습, 평가 및 벤치마킹을 위한 통합 인터페이스와 모듈식 설계를 제공합니다.
  • 라이브러리는 20개가 넘는 공용 데이터셋과 10개가 넘는 태스크에 걸쳐 이미지-텍스트 및 비디오-텍스트 태스크를 지원합니다.
  • 사용자는 ALBEF, BLIP, CLIP, ALPRO의 네 가지 파운데이션 모델에서 30개가 넘는 사전 학습 및 태스크별 미세 조정 체크포인트에 접근할 수 있습니다.
  • 실험 벤치마크는 여러 모델과 태스크에 걸쳐 공식 결과와 밀접하게 일치하는 재현된 결과를 보여줍니다.
  • 이 프레임워크는 새로운 태스크와 데이터셋(KVQA, Video Dialogue 등)에 경쟁력 있는 성능으로의 적응을 가능하게 합니다.
  • 추가 리소스(사전 학습 체크포인트, 자동 데이터셋 다운로드, GUI 데모, 데이터셋 브라우저)는 재현 및 배포의 장벽을 낮춥니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.