Skip to main content
QUICK REVIEW

[論文レビュー] StyleDrop: Text-to-Image Generation in Any Style

Kihyuk Sohn, Nataniel Ruiz|arXiv (Cornell University)|Jun 1, 2023
Generative Adversarial Networks and Image Synthesis被引用数 25
ひとこと要約

StyleDropは、アダプターを用いたテキストから画像へのトランスフォーマーをファインチューニングすることにより、ユーザー指定のスタイルで画像を学習・生成することを、わずかone枚の参照画像と、スタイル忠実度およびコンテンツとスタイルの分離を改善する反復的フィードバックと共に実現します。

ABSTRACT

Pre-trained large text-to-image models synthesize impressive images with an appropriate use of text prompts. However, ambiguities inherent in natural language and out-of-distribution effects make it hard to synthesize image styles, that leverage a specific design pattern, texture or material. In this paper, we introduce StyleDrop, a method that enables the synthesis of images that faithfully follow a specific style using a text-to-image model. The proposed method is extremely versatile and captures nuances and details of a user-provided style, such as color schemes, shading, design patterns, and local and global effects. It efficiently learns a new style by fine-tuning very few trainable parameters (less than $1\%$ of total model parameters) and improving the quality via iterative training with either human or automated feedback. Better yet, StyleDrop is able to deliver impressive results even when the user supplies only a single image that specifies the desired style. An extensive study shows that, for the task of style tuning text-to-image models, StyleDrop implemented on Muse convincingly outperforms other methods, including DreamBooth and textual inversion on Imagen or Stable Diffusion. More results are available at our project website: https://styledrop.github.io

研究の動機と目的

  • Faithful stylization in text-to-image generation beyond broad or vague promptsを促進し、実現する。
  • Demonstrate that a very small fine-tuning footprint can capture complex style nuances from minimal data.
  • Propose an iterative training framework with feedback to reduce overfitting and content leakage.
  • Show compositional capabilities to combine style with content and to mix multiple adapters for style and content personalization.

提案手法

  • Museをベースとしたテキストから画像へのトランスフォーマーをマスクドビジュアルトークンモデリングとともに用いる。
  • パラメータ効率の高いファインチューニングをアダプターで適用し、ベースモデルを固定したままスタイル特有のパラメータを学習する。
  • コンテンツの記述と明示的なスタイル記述子を組み合わせてスタイルプロンプトを構築し、コンテンツとスタイルの分離を促進する。
  • 高品質に合成された画像を再訓練用に選択するための反復的訓練とフィードバック(CLIPベースまたは人間)を導入する。
  • 2つのアダプター(styleとcontent)からのサンプリングを可能にし、スタイルと別個の主題表現を組み合わせた出力を作成する。
  • スタイル適応生成器とコンテンツ適応生成器の分布をブレンドするサンプリング方程式を提供し、複合出力を実現する。
Figure 1 : Visualization of StyleDrop outputs generated by personalized text-to-image models for $18$ different styles. Each model is tuned on a single style reference image, which is shown in the white insert box of each image. The per-style text descriptor is appended to the content text prompt: “
Figure 1 : Visualization of StyleDrop outputs generated by personalized text-to-image models for $18$ different styles. Each model is tuned on a single style reference image, which is shown in the white insert box of each image. The per-style text descriptor is appended to the content text prompt: “

実験結果

リサーチクエスチョン

  • RQ1StyleDropは非常に少ない参照画像から任意の視覚スタイルをキャプチャし転送できるか。
  • RQ2アダプター-based fine-tuningは、スタイル転送においてT2Iモデルの完全ファインチューニングや拡散ベースのベースラインよりも優れているか。
  • RQ3反復的フィードバック(CLIPまたは人間)はスタイル忠実度とコンテンツ分離にどう影響するか。
  • RQ4StyleDropは別々のスタイルとコンテンツアダプターを用いた組成生成を実現し、柔軟なパーソナライズを可能にするか。

主な発見

  • StyleDropは1枚の参照画像という少ないデータで高いスタイル忠実度とコンテンツ・スタイル分離を達成する。
  • ImagenやStable DiffusionにおけるDreamBoothとテキスト inversionと比較して、Muse上のStyleDropはCLIPと人間の評価でスタイルの一貫性が優れ、テキスト整合性も競合的または優れている。
  • フィードバックを伴う反復訓練(HFまたはCF)はリコール(テキスト忠実度)を改善する一方で、合成データのドリフトによるスタイル忠実度のトレードオフが生じる。
  • 記述的なスタイルプロンプトは、レアトークンアプローチを超えた細粒度のスタイル編集と属性レベルの制御を可能にする。
  • 2つのアダプターからのサンプリングにより、内容とスタイルを同時に最適化せずとも、選択したスタイルで主題を組み合わせた画像を生成できる。
Figure 2 : A simplified architecture of transformer layers of Muse [ 4 ] with modification to support parameter-efficient fine-tuning (PEFT) with adapter [ 12 , 32 ] . $L$ layers of transformers are used to process a sequence of visual tokens in green conditioned on the text embedding $e$ . Learnabl
Figure 2 : A simplified architecture of transformer layers of Muse [ 4 ] with modification to support parameter-efficient fine-tuning (PEFT) with adapter [ 12 , 32 ] . $L$ layers of transformers are used to process a sequence of visual tokens in green conditioned on the text embedding $e$ . Learnabl

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。