Skip to main content
QUICK REVIEW

[논문 리뷰] MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer

Changyao Tian, Xizhou Zhu|arXiv (Cornell University)|2024. 01. 18.
Multimodal Machine Learning Applications인용 수 6
한 줄 요약

MM-Interleaved는 생성 도중 다중 스케일 고해상도 이미지 특징에 접근하기 위해 미세한 다중 모달 피처 동기화기를 사용하여 인터리브된 이미지-텍스트 데이터에 대한 end-to-end 모델로, 정확한 텍스트 생성과 시각적으로 일관된 이미지 합성을 가능하게 한다.

ABSTRACT

Developing generative models for interleaved image-text data has both research and practical value. It requires models to understand the interleaved sequences and subsequently generate images and text. However, existing attempts are limited by the issue that the fixed number of visual tokens cannot efficiently capture image details, which is particularly problematic in the multi-image scenarios. To address this, this paper presents MM-Interleaved, an end-to-end generative model for interleaved image-text data. It introduces a multi-scale and multi-image feature synchronizer module, allowing direct access to fine-grained image features in the previous context during the generation process. MM-Interleaved is end-to-end pre-trained on both paired and interleaved image-text corpora. It is further enhanced through a supervised fine-tuning phase, wherein the model improves its ability to follow complex multi-modal instructions. Experiments demonstrate the versatility of MM-Interleaved in recognizing visual details following multi-modal instructions and generating consistent images following both textual and visual conditions. Code and models are available at \url{https://github.com/OpenGVLab/MM-Interleaved}.

연구 동기 및 목표

  • 인터리브드된 이미지-텍스트 시퀀스로부터 엔드-투-엔드 생성을 동기 부여하고 가능하게 한다.
  • 고정된 시각 토큰 수로 인한 정보 손실을 해결하기 위해 미세한 다중 이미지 특징 동기화기를 도입한다.
  • 생성 중 여러 이미지에 걸친 고해상도 이미지 특징에 직접 접근을 가능하게 한다.
  • 사내 데이터 없이 혼합된 인터리브드 및 페어 데이터로 사전 학습하고 다양한 다중 모달 작업에서 미세 조정한다.
  • 텍스트, 이미지 및 다중 모달 지시사항에 걸친 생성 및 이해 능력을 보여준다.

제안 방법

  • 고정된 시각 토큰과 다중 스케일 이미지 특징을 생성하는 Visual Foundation Model (VFM) 이미지 토크나이저를 도입한다.
  • 정교한 피처 동기화기 (MMFS)로 인터리브드 이미지-텍스트 시퀀스를 처리하기 위해 Large Language Model (LLM)을 임베딩한다.
  • LLM과 다중 스케일 이미지 특징으로부터 컨텍스트 특징을 받는 이미지 디코더로 Diffusion Model (DM)을 부착한다.
  • 다중 이미지, 다중 스케일 특징에 동적으로 주의를 기울이도록 변형 가능한 희소 주의(attention)를 사용하여 MMFS 모듈을 개발한다.
  • End-to-end 최적화를 위한 Next-Text-Token Prediction과 Next-Image Prediction 손실을 결합한 공동 훈련 목표를 정의한다.
  • 다중 모달 지시사항 준사를 향상시키기 위해 감독 학습 작업으로 미세 조정한다.

실험 결과

연구 질문

  • RQ1VFM, LLM, DM을 결합한 엔드-투-엔드 프레임워크에서 인터리브드된 이미지-텍스트 데이터를 어떻게 효과적으로 모델링할 수 있는가?
  • RQ2제한된 맥락 내에서 변형 가능한 다중 모달 피처 동기화기가 여러 이미지에 걸친 미세한 이미지 디테일을 보존할 수 있는가?
  • RQ3인터리브드 시퀀스에 대한 엔드-투-엔드 사전 학습과 이후 감독 학습 미세 조정을 통해 텍스트 및 이미지 생성 품질에서 어떤 이득을 얻을 수 있는가?
  • RQ4캡션 생성, VQA, REC, 세그멘테이션-투-이미지 변환, 시각적 스토리텔링과 같은 제로샷 및 미세 조정 다중 모달 작업에서 MM-Interleaved의 성능은 어떠한가?

주요 결과

  • 이 모델은 사내 데이터 없이 캡션 작성, VQA 및 관련 작업에서 강력한 제로샷 다중 모달 이해를 보여준다.
  • 미세 조정된 MM-Interleaved는 참조 표현 이해 및 시각적 스토리텔링 벤치마크에서 경쟁력 있는 또는 최첨단 성능을 달성한다.
  • MMFS는 단일 및 다중 이미지 맥락에서 세밀한 디테일과 픽셀 수준 정합성을 갖춘 이미지 생성을 가능하게 하며, 세그멘테이션-투-이미지 번역에서 기준선보다 우수하다.
  • 이 접근법은 토큰 효율성을 유지하면서 다중 이미지의 인터리브드 생성을 지원하며 텍스트-투-이미지 생성에서도 경쟁력 있는 성능을 달성한다.
  • 고정 시각 토큰을 사용하는 기준 멀티모달 LLMs와 비교할 때, MM-Interleaved는 이미지당 더 작은 토큰 예산으로 더 나은 디테일 보존을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.