Skip to main content
QUICK REVIEW

[논문 리뷰] ImageBind-LLM: Multi-modality Instruction Tuning

Jiaming Han, Renrui Zhang|arXiv (Cornell University)|2023. 09. 07.
Multimodal Machine Learning Applications인용 수 24
한 줄 요약

ImageBind-LLM은 다중 모달리티 지시를 따르도록 LLaMA를 미세조정합니다. ImageBind의 임베딩을 학습 가능한 바인드 네트워크와 정렬하고, 주의 집중 없이 시각적 단서를 주입하며, 추론 시 이미지, 오디오, 비디오, 3D 입력에 걸쳐 성능을 향상시키는 학습 없는 시각 캐시를 사용합니다.

ABSTRACT

We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.

연구 동기 및 목표

  • 이미지 외 다중 모달리티에 조건화된 지시를 따르도록 대형 언어 모델을 동기 부여하고 가능하게 합니다.
  • ImageBind 임베딩을 LLaMA와 정렬하고 주의 집중 없이 시각적 단서를 주입하는 효율적인 학습 접근법을 개발합니다.
  • 전체 멀티-모달 LLM 재훈련 없이 교차 모달리티 지시 준수를 달성하기 위해 간단한 이미지-텍스트 학습 설정을 활용합니다.
  • 추론 중 학습-추론 모달리티 차이를 완화하기 위해 학습 없는 시각 캐시 모델을 사용합니다.

제안 방법

  • ImageBind 이미지 인코더를 고정하고, 전역 이미지 특징을 LLaMA 임베딩 공간으로 변환하도록 학습 가능한 바인드 네트워크를 훈련합니다.
  • 변환된 이미지 특징을 모든 트랜스포머 계층의 LLaMA 워드 토큰마다 주입합니다. 주의 집중 없이 제로 초기화 게이팅 메커니즘을 사용합니다.
  • 이미지-캡션 데이터로 비전-언어 사전 학습을 수행한 뒤, encoders를 고정한 채로 언어 및 시각 지시 데이터로 다중 모달리티 지시 조정을 수행합니다.
  • 매개변수 효율적 방법(LoRA 및 바이어스-노름 튜닝)으로 LLaMA를 미세조정하고, 보조 고품질 지시 조정 단계(MiniGPT-4 데이터)를 수행합니다.
  • 추론 시 유사한 ImageBind 특징을 검색하고 잔여 연결로 집계하여 다중 모달 임베딩을 향상시키는 학습 없는 시각 캐시 검색을 도입합니다.]

실험 결과

연구 질문

  • RQ1이미지, 오디오, 비디오, 3D 모달리티 전반에 걸친 지시를 지원하기 위해 단일 결합 임베딩 공간(ImageBind)을 활용할 수 있는가?
  • RQ2주의 집중 없이 제로 초기화 시각 주입 스킴이 기존의 언어 지식을 해치지 않으면서 LLaMA에 시각 지시를 효과적으로 주입하는가?
  • RQ3훈련(이미지-전용)과 추론(다중 모달 입력) 간의 모달리티 차이를 캐시 기반 향상이 완화하는가?
  • RQ4매개변수 효율적 미세조정으로 강력한 다중 모달 지시 준수 능력을 달성할 수 있는가?

주요 결과

  • ImageBind-LLM은 OCR, KIE, 이미지 자막 생성, VQA, KGID 벤치마크에서 제로샷 성능이 강하게 나타나며 다른 비전-언어 모델 및 PandaGPT와 비교하여 우수합니다.
  • PandaGPT와 비교할 때 ImageBind-LLM은 바인드 네트워크를 통한 더 나은 정렬 이점을 얻고 Vicuna 대신 LLaMA를 사용하여 언어 생성 품질과 정합성에 기여합니다.
  • OCR 성능은 단일 모달리티 특징 토큰을 사용하는 다른 모델과 달리 다소 뒤쳐지며, 이는 시각 정보에 대해 다중 토큰을 사용하는 다른 모델과의 차이에서 기인할 수 있습니다.
  • 학습 없는 시각 캐시가 유사한 시각 특징을 검색하고 잔여 연결로 합산하여 다중 모달 임베딩을 강화하고 모달리티 간 간극을 줄여 추론을 개선합니다.
  • 확장으로 이중언어 지시 조정 및 임의-임의 생성이 가능하며, 적합한 생성 백엔드와 통합될 때 텍스트를 넘어서는 출력을 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.