Skip to main content
QUICK REVIEW

[論文レビュー] DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models

Ximing Xing, Chuang Wang|arXiv (Cornell University)|Jun 26, 2023
Multimodal Machine Learning Applications被引用数 14
ひとこと要約

DiffSketcherは、事前学習済みの潜在拡散モデルとアテンションベースのストローク初期化に導かれた拡張SDS損失を用いて、テキストから高品質なベジェ曲線を最適化することで、テキストからベクトル自由手スケッチを生成する。

ABSTRACT

Even though trained mainly on images, we discover that pretrained diffusion models show impressive power in guiding sketch synthesis. In this paper, we present DiffSketcher, an innovative algorithm that creates \textit{vectorized} free-hand sketches using natural language input. DiffSketcher is developed based on a pre-trained text-to-image diffusion model. It performs the task by directly optimizing a set of Bézier curves with an extended version of the score distillation sampling (SDS) loss, which allows us to use a raster-level diffusion model as a prior for optimizing a parametric vectorized sketch generator. Furthermore, we explore attention maps embedded in the diffusion model for effective stroke initialization to speed up the generation process. The generated sketches demonstrate multiple levels of abstraction while maintaining recognizability, underlying structure, and essential visual details of the subject drawn. Our experiments show that DiffSketcher achieves greater quality than prior work. The code and demo of DiffSketcher can be found at https://ximinng.github.io/DiffSketcher-project/.

研究の動機と目的

  • スケッチ-テキストペアデータなしで、テキストと自由手ベクトルスケッチ生成を橋渡しする。
  • 事前学習済みのテキスト-画像拡散モデルを活用してベクトルスケッチの最適化を導く。
  • アテンションベースのストローク初期化と特化した損失関数を通じて効率と品質を向上させる。
  • ストローク数と不透明度を制御可能にすることで、スケッチの複数の抽象レベルを実現する。

提案手法

  • スケッチをストロークごとの不透明度を持つ一連のBézier曲線として表現し、微分可能ラスタライザーを用いて制御点を最適化する。
  • Score Distillation Sampling (SDS)損失を拡張して、事前学習済みの潜在拡散モデルを事前情報として曲線最適化を導く。
  • 入力拡張を伴う拡張SDS (ASDS)損失を用いて、スタイルを保ちながらスケッチをテキストプロンプトに整合させる。
  • 拡散モデルのUNetからの融合クロスアテンションと自己アテンションマップを用いてストローク位置を初期化し、収束を速める。
  • Joint Visual Semantic and Perceptual (JVSP)損失を取り入れ、LPIPSとCLIPを組み合わせて意味的内容と視覚特徴を整合させる。

実験結果

リサーチクエスチョン

  • RQ1テキストプロンプトだけで、さまざまな抽象レベルで高品質な多様なベクタースケッチの合成を導くことができるか?
  • RQ2拡散モデルの事前情報を微分可能なラスタライザに転送してベクトルストロークを最適化するにはどうすればよいか?
  • RQ3アテンションベースのストローク初期化は、ランダム初期化と比較してスケッチの忠実度と生成効率を改善するか?
  • RQ4意味的整合とスタイリスティックなスケッチ現実性との最良のトレードオフをもたらす損失関数(JVSP、ASDS)はどれか?
  • RQ5生成されたスケッチは、プロンプトとの整合性と知覚/美的品質の点で、ベースラインと比べてどうか?

主な発見

  • DiffSketcherは、ストローク数を調整することで、テキストプロンプトからオブジェクトレベルおよびシーンレベルのベクトルスケッチを、抽象度を変えながら生成する。
  • ASDS損失は多様でプロンプトに整合したスケッチ生成を可能にし、JVSPと組み合わせると、どちらか一方の損失だけを用いる場合より品質が向上する。
  • Fusionクロスアテンションと自己アテンションマップを用いたアテンションベースの初期化は収束を速め、スケッチの忠実度を向上させる。
  • 定量的測定は、テキストとスケッチの整合性(CLIPコサイン類似度)と美的価値が、ベースラインより高いことを示す(0.3494 vs 0.328 and 0.3075; aesthetic 4.8206 vs 4.3682 and 4.0821)。
  • DiffSketcherは一貫性と美観でCLIPassoおよびCannyエッジベースの方法を上回り、シーンスケッチのいくつかの点でVectorFusionと同等かそれを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。