QUICK REVIEW

[論文レビュー] MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing

Mingdeng Cao, Xintao Wang|arXiv (Cornell University)|Apr 17, 2023

Generative Adversarial Networks and Image Synthesis被引用数 8

ひとこと要約

MasaCtrlはチューニング不要の手法を導入し、拡散過程全体で自己注意を相互自己注意に変換することで、一貫した画像生成と複雑な非剛性編集を実現します。マスクガイド型のバリアントは前景と背景の混同を軽減します。

ABSTRACT

Despite the success in large-scale text-to-image generation and text-conditioned image editing, existing methods still struggle to produce consistent generation and editing results. For example, generation approaches usually fail to synthesize multiple images of the same objects/characters but with different views or poses. Meanwhile, existing editing methods either fail to achieve effective complex non-rigid editing while maintaining the overall textures and identity, or require time-consuming fine-tuning to capture the image-specific appearance. In this paper, we develop MasaCtrl, a tuning-free method to achieve consistent image generation and complex non-rigid image editing simultaneously. Specifically, MasaCtrl converts existing self-attention in diffusion models into mutual self-attention, so that it can query correlated local contents and textures from source images for consistency. To further alleviate the query confusion between foreground and background, we propose a mask-guided mutual self-attention strategy, where the mask can be easily extracted from the cross-attention maps. Extensive experiments show that the proposed MasaCtrl can produce impressive results in both consistent image generation and complex non-rigid real image editing.

研究の動機と目的

同一オブジェクト/シーンの複数ビュー間で一貫した生成を実現するギャップを埋める。
拡散モデルを微調整せずに複雑な非剛性画像編集を可能にする。
ソースコンテンツのテクスチャと識別性を維持しつつ、ターゲットのポーズ/構造変更を許容する。
マスクガイド付き相互自己注意を用いて前景と背景の問合せ混乱を緩和する。
統合可能な拡散モデルのフレームワークとともに、再現性の高い編集を実現する導入済みのアプローチを提供する。

提案手法

拡散モデルの既存の自己注意を相互自己注意へ変換し、デノイズ時にソース画像の内容をクエリする。
ソース拡散過程からのソース画像特徴を用いて、拡散ステップと層を横断するクロスアテンションを介してターゲット画像に影響を与える。
ターゲットプロンプトを活用しつつ、一貫した合成と編集を可能にするための時刻ステップおよび層の位置制御を適用する。
クロスアテンションマップから導出されたマスクを使用して前景と背景を分離するマスクガイド付き相互自己注意を導入する。
T2I-AdapterやControlNetなどの制御可能な拡散フレームワークとの容易な統合を可能にし、編集の忠実度を向上させる。

実験結果

リサーチクエスチョン

RQ1自己注意をどのように再定式化してソース画像から内容をクエリし、一貫した編集と合成を実現できるか。
RQ2チューニング不要の相互自己注意は、ソースのテクスチャと識別性を保持しつつ、ターゲットプロンプトで指定されたポーズ/ビューの変更を可能にできるか。
RQ3マスクガイド付き相互自己注意は編集時の前景と背景の問合せ混乱を減らすか。
RQ4 MasaCtrlは既存の制御可能拡散ツールと統合して非剛性編集の忠実度を向上させられるか。
RQ5前景と背景が似たパターンを共有する場合、相互自己注意の限界は何か。

主な発見

MasaCtrlは微調整なしで一貫した画像生成と複雑な非剛性編集を実現する。
相互自己注意により、ソース画像の内容をクエリしてテクスチャと識別性を保持しつつ、ターゲットのポーズやビューを採用できる。
マスクガイド付き相互自己注意はクロスアテンションマップから導出されたマスクにより前景と背景の問合せ混乱を軽減する。
このアプローチは制御可能な拡散システムと統合して、合成と編集の忠実度をさらに向上させられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。