Skip to main content
QUICK REVIEW

[論文レビュー] Guiding Instruction-based Image Editing via Multimodal Large Language Models

Tsu-Jui Fu, Wenze Hu|arXiv (Cornell University)|Sep 29, 2023
Multimodal Machine Learning Applications被引用数 10
ひとこと要約

MGIE はマルチモーダル大規模言語モデルを用いて、拡散ベースの画像エディターを指示ベースの編集へと導く、表現力豊かで視覚を意識した指示を生成し、基準と比べて性能を改善しつつ推論効率を競争力のある水準に保つ。

ABSTRACT

Instruction-based image editing improves the controllability and flexibility of image manipulation via natural commands without elaborate descriptions or regional masks. However, human instructions are sometimes too brief for current methods to capture and follow. Multimodal large language models (MLLMs) show promising capabilities in cross-modal understanding and visual-aware response generation via LMs. We investigate how MLLMs facilitate edit instructions and present MLLM-Guided Image Editing (MGIE). MGIE learns to derive expressive instructions and provides explicit guidance. The editing model jointly captures this visual imagination and performs manipulation through end-to-end training. We evaluate various aspects of Photoshop-style modification, global photo optimization, and local editing. Extensive experimental results demonstrate that expressive instructions are crucial to instruction-based image editing, and our MGIE can lead to a notable improvement in automatic metrics and human evaluation while maintaining competitive inference efficiency.

研究の動機と目的

  • 指示ベースの画像編集を促進し、人間の指示があまりにも不十分または曖昧な場合に対処する。
  • マルチモーダル大規模言語モデル(MLLMs)を活用して表現力豊かで視覚ガイド付きの指示を導出する。
  • MLLM由来の指導に基づく編集用拡散モデルを共同訓練して意図した編集を実現する。
  • Photoshop風の修正、グローバル最適化、局所編集にわたってMGIEを評価する。
  • 視覚を意識した表現豊かな指示が自動指標と人間評価の双方を改善することを示す。

提案手法

  • MLLMと拡散エディターを組み合わせたMGIEを導入する。
  • 要約誘導プロンプトを用いてMLLMの出力から簡潔な表現指示Eを導出し、ターゲットトークンに対してCELossでMLLMを訓練する。
  • Eの後に学習可能な視覚トークン[IMG]を追加し、編集ヘッドTを用いて潜在的な視覚ガイダンスUを生成する。
  • 潜在拡散モデルFを入力Vと視覚ガイダンスUの両方でクロスアテンションを介して条件付けし、編集済み画像を生成する。
  • L_ins(指示損失)とL_edit(編集損失)を用いてエンドツーエンド訓練を行い、効率的な学習を可能にするため多くの重みを凍結する。
  • 多様な編集データセット(EVR、GIER、MA5k、MagicBrush)でゼロショットおよびファインチューニング済みの性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1MLLMは指示ベースの編集を改善する明示的な視覚認識ガイダンスを提供できるか。
  • RQ2MLLMから表現力豊かな指示を学習することは、Photoshop風の編集、グローバル最適化、局所編集の品質を向上させるか。
  • RQ3自動指標と人間評価の両方で、MGIEはCLIPベースまたは単一モーダリティのベースラインとどのように比較されるか。
  • RQ4エンドツーエンド訓練とMLLM部品を凍結することの編集性能と効率への影響はどうか。

主な発見

  • MGIEによって導出された表現力豊かな指示は、データセットや編集タイプを問わず自動指標の改善をもたらす。
  • MGIEの視覚認識ガイダンスは、意図された目標への整合性が高く、InsPix2PixやLGIEなどのベースラインよりも編集品質が良い。
  • 表現力豊かな指示を用いたエンドツーエンド訓練(E2E)は、グローバル最適化と局所編集の両方のタスクで最も大きな改善をもたらす。
  • MGIEは推論効率を競争力のある水準に保ち、単一のA100 GPUで1回の編集あたり約10秒、バッチ性能もスケーラブルである。
  • 人間評価は、MGIEがより実用的な表現指示を提供し、ベースラインより指示遵守と編集品質が優れていることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。