QUICK REVIEW

[論文レビュー] Enhance Image-to-Image Generation with LLaVA-generated Prompts

Zhicheng Ding, Panfeng Li|arXiv (Cornell University)|Jun 4, 2024

Image Processing Techniques and Applications被引用数 13

ひとこと要約

この論文は入力画像から正のプロンプトと負のプロンプトを生成するためにLLaVAを使用し、これらのプロンプトと画像をStable Diffusion に入力して、画像間の忠実度と類似性を向上させる。

ABSTRACT

This paper presents a novel approach to enhance image-to-image generation by leveraging the multimodal capabilities of the Large Language and Vision Assistant (LLaVA). We propose a framework where LLaVA analyzes input images and generates textual descriptions, hereinafter LLaVA-generated prompts. These prompts, along with the original image, are fed into the image-to-image generation pipeline. This enriched representation guides the generation process towards outputs that exhibit a stronger resemblance to the input image. Extensive experiments demonstrate the effectiveness of LLaVA-generated prompts in promoting image similarity. We observe a significant improvement in the visual coherence between the generated and input images compared to traditional methods. Future work will explore fine-tuning LLaVA prompts for increased control over the creative process. By providing more specific details within the prompts, we aim to achieve a delicate balance between faithfulness to the original image and artistic expression in the generated outputs.

研究の動機と目的

LLaVA の画像理解を活用して、画像間生成をガイドする精緻なプロンプトを作成する。
LLaVA が生成したプロンプトが、プロンプトなし生成と比較して忠実度と視覚的類似性を改善するかを調査する。
複数の例画像にわたってプロンプトが画像類似度指標に与える影響を評価する。

提案手法

入力画像を LLaVA に渡して正のプロンプトと負のプロンプトを生成する。
Stable Diffusion v2.0 Img2Img を、入力画像と LLaVA 生成プロンプト（および負のプロンプト）を入力として使用する。
標準的な類似性指標（RMSE、PSNR、FSIM、SSIM、UIQ、SRE）を用いて、LLaVA プロンプト有無で画像間出力を比較する。
性能を高めるためにSVMとの統合をオプションで検討する。
複数の例画像を横断して定性的および定量的な比較を提供する。

Figure 1 : Framework of LLaVA-prompts-based image-to-image generation

実験結果

リサーチクエスチョン

RQ1LLaVA 生成プロンプトを組み込むことは、プロンプトなし生成と比較して生成画像の忠実度と入力画像への類似性を改善するか？
RQ2LLaVA 生成プロンプトは、異なるターゲット画像に対して定量的な画像類似性指標にどのような影響を与えるか？
RQ3LLaVA 生成プロンプトにはどんな制限があり、タスク指示はそれらをどのように洗練させることができるか？
RQ4追加の分類子（例：SVM）は、LLaVA プロンプトと併用した場合に性能をさらに向上させるか？

主な発見

Images	RMSE ↓	PSNR ↑	FSIM ↑	SSIM ↑	UIQ ↑	SRE ↑
プロンプトなしの犬	0.01931	34.2736	0.28770	0.78507	0.03133	48.7848
犬のプロンプトあり	0.01008	39.8750	0.36375	0.92199	0.07616	51.6555
プロンプトなしの宇宙飛行士	0.01798	34.9009	0.27823	0.79330	0.00104	51.0724
宇宙飛行士のプロンプトあり	0.01262	37.9785	0.30214	0.88230	0.02420	52.6086
プロンプトなしの飛行機	0.01275	37.7418	0.31769	0.92368	0.00861	53.8197
飛行機のプロンプトあり	0.00767	42.2708	0.40353	0.96597	0.10995	55.7809
プロンプトなしの摩天楼	0.02603	31.6809	0.27245	0.58362	-0.00236	43.1745
摩天楼のプロンプトあり	0.01839	34.6985	0.31015	0.74276	0.03159	44.6849

LLaVA 生成プロンプトは、テストされた画像全体で画像類似性指標を大幅に改善した。
犬の場合: RMSE は 0.01931 から 0.01008 へ低下; PSNR は 34.2736 から 39.8750 へ上昇; SSIM は 0.78507 から 0.92199 へ; UIQ は 0.03133 から 0.07616 へ; SRE は 48.7848 から 51.6555 へ上昇。
宇宙飛行士の場合: RMSE は 0.01798 から 0.01262 へ低下; PSNR は 34.9009 から 37.9785 へ上昇; SSIM は 0.79330 から 0.88230 へ; UIQ は 0.00104 から 0.02420 へ; SRE は 51.0724 から 52.6086 へ上昇。
飛行機の場合: RMSE は 0.01275 から 0.00767 へ低下; PSNR は 37.7418 から 42.2708 へ上昇; FSIM は 0.31769 から 0.40353 へ上昇; SSIM は 0.92368 から 0.96597 へ上昇; UIQ は 0.00861 から 0.10995 へ; SRE は 53.8197 から 55.7809 へ上昇。
摩天楼の場合: RMSE は 0.02603 から 0.01839 へ低下; PSNR は 31.6809 から 34.6985 へ上昇; FSIM は 0.27245 から 0.31015 へ上昇; SSIM は 0.58362 から 0.74276 へ上昇; UIQ は -0.00236 から 0.03159 へ; SRE は 43.1745 から 44.6849 へ上昇。

Figure 2 : Comparison between image-to-image generation with and without LLaVA generated prompts

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。