Skip to main content
QUICK REVIEW

[논문 리뷰] Guiding Instruction-based Image Editing via Multimodal Large Language Models

Tsu-Jui Fu, Wenze Hu|arXiv (Cornell University)|2023. 09. 29.
Multimodal Machine Learning Applications인용 수 10
한 줄 요약

MGIE는 다중 모달 대형 언어 모델을 사용해 표현적이고 시각 인식이 반영된 지시를 생성하고 이를 통해 확산 기반 이미지 편집기를 안내하여 지시 기반 편집의 성능을 baselines 대비 향상시키면서 추론 효율성도 경쟁력 있게 유지합니다.

ABSTRACT

Instruction-based image editing improves the controllability and flexibility of image manipulation via natural commands without elaborate descriptions or regional masks. However, human instructions are sometimes too brief for current methods to capture and follow. Multimodal large language models (MLLMs) show promising capabilities in cross-modal understanding and visual-aware response generation via LMs. We investigate how MLLMs facilitate edit instructions and present MLLM-Guided Image Editing (MGIE). MGIE learns to derive expressive instructions and provides explicit guidance. The editing model jointly captures this visual imagination and performs manipulation through end-to-end training. We evaluate various aspects of Photoshop-style modification, global photo optimization, and local editing. Extensive experimental results demonstrate that expressive instructions are crucial to instruction-based image editing, and our MGIE can lead to a notable improvement in automatic metrics and human evaluation while maintaining competitive inference efficiency.

연구 동기 및 목표

  • 지시 기반 이미지 편집을 촉진하고 인간 지시가 너무 간단하거나 모호할 때의 문제를 다룬다.
  • 다중모달 대형 언어 모델(MLLMs)을 활용해 표현적이고 시각 안내 지시를 도출한다.
  • MLLM 유도 가이드를 사용하여 편집 확산 모델을 함께 학습시켜 의도된 편집을 구현한다.
  • Photoshop 스타일의 수정, 글로벌 최적화, 로컬 편집 전반에 걸쳐 MGIE를 평가한다.
  • 시각 인식적 표현 지시가 자동 지표와 인간 평가를 모두 향상시킨다는 것을 보여준다.

제안 방법

  • MLLM과 확산 편집기를 결합한 MGIE를 소개한다.
  • 요약 가이드 프롬프트를 사용해 MLLM 출력으로부터 간결한 표현 지시 E를 유도하고, 대상 토큰에 대해 CELoss로 MLLM을 학습시킨다.
  • E 뒤에 학습 가능한 시각 토큰 [IMG]를 추가하고 편집 헤드 T를 사용해 잠재 시각 가이드 U를 생성한다.
  • 교차 주의(attention)를 통해 입력 V와 시각 가이드 U에 모두 조건화된 잠재 확산 모델 F를 사용해 편집된 이미지를 생성한다.
  • 효율적인 학습을 가능하게 하기 위해 대부분의 가중치를 고정하고 L_ins(지시 손실)와 L_edit(편집 손실)로 엔드투엔드 학습한다.
  • 다양한 편집 데이터셋(EVR, GIER, MA5k, MagicBrush)에서 제로샷 및 미세조정 성능을 평가한다.

실험 결과

연구 질문

  • RQ1MLLM이 명시적 시각 인식 가이드를 제공해 지시 기반 편집을 개선할 수 있는가?
  • RQ2MLLM으로부터 표현 지시를 학습하는 것이 Photoshop 스타일 편집, 글로벌 최적화, 로컬 편집 전반의 편집 품질을 향상시키는가?
  • RQ3MGIE가 자동 지표와 인간 평가 모두에서 CLIP 기반 또는 단일 모달리티 기본과 어떻게 비교되는가?
  • RQ4MLLM 구성 요소를 고정하는 것과 엔드투엔드 학습 간의 편집 성능 및 효율성 차이는 무엇인가?

주요 결과

  • MGIE에서 도출된 표현 지시는 데이터셋과 편집 유형 전반에서 자동 지표의 개선으로 이어진다.
  • MGIE의 시각 인식 가이드는 의도된 목표와의 정렬을 높이고 InsPix2Pix 및 LGIE와 같은 기본값보다 더 나은 편집 품질을 제공합니다.
  • 표현 지시를 갖춘 엔드투엔드(E2E) 학습은 글로벌 최적화와 로컬 편집 작업에서 가장 강한 이득을 제공합니다.
  • MGIE는 추론 효율성을 유지하며 단일 A100 GPU에서 편집당 약 10초의 시간과 확장 가능한 배치 성능을 보입니다.
  • 휴먼 평가에서 MGIE가 더 실용적이고 표현력 있는 지시를 제공하며 기본값보다 지시 준수/편집 품질이 우수하다고 나타났습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.