QUICK REVIEW

[論文レビュー] Training-Free Text-to-Image Compositional Food Generation via Prompt Grafting

Xinyue Pan, Yuhao Chen|arXiv (Cornell University)|Jan 25, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

この論文は Prompt Grafting を提案する。トレーニング不要で多食品画像生成においてオブジェクトの絡み合いを防ぐ方法で、まずレイアウトプロンプトで分離可能なレイアウトを形成し、次に対象の食品プロンプトを接ぎ合わせることで、拡散モデルのファインチューニングなしに複数アイテムの存在感を向上させる。

ABSTRACT

Real-world meal images often contain multiple food items, making reliable compositional food image generation important for applications such as image-based dietary assessment, where multi-food data augmentation is needed, and recipe visualization. However, modern text-to-image diffusion models struggle to generate accurate multi-food images due to object entanglement, where adjacent foods (e.g., rice and soup) fuse together because many foods do not have clear boundaries. To address this challenge, we introduce Prompt Grafting (PG), a training-free framework that combines explicit spatial cues in text with implicit layout guidance during sampling. PG runs a two-stage process where a layout prompt first establishes distinct regions and the target prompt is grafted once layout formation stabilizes. The framework enables food entanglement control: users can specify which food items should remain separated or be intentionally mixed by editing the arrangement of layouts. Across two food datasets, our method significantly improves the presence of target objects and provides qualitative evidence of controllable separation.

研究の動機と目的

組成的食品画像生成におけるオブジェクト絡み合いとオブジェクト欠如を解消する。
拡散モデルのファインチューニングなしで信頼性の高い複数食品生成を可能にする。
テキストプロンプトのみを用いて分離可能なレイアウトを作成し、それを内容で埋めるトレーニング不要フレームワークを提供する。
ユーザーが分離を維持するか絡ませるかを選択できる制御可能な生成を提供する。

提案手法

二段階拡散サンプリング：まずレイアウトプロンプトを条件化して分離領域を確立し、レイアウト安定化後にターゲットプロンプトへ接ぎ替える。
レイアウト中断は時間変化条件付け c(t) を用い、接ぎ替えタイムステップ T で c_layout から c_target に切替える。
レイアウト安定化を検出するために CLIP ベースのレイアウト–テキスト類似性を監視して動的な接ぎ替えタイムステップを決定する（S_lay）。
最終調整時に全アイテムが一皿に崩れ落ちるのを抑制するためのネガティブプロンプトによる分類器なしガイダンス。
モデルのファインチューニングやレイアウト注釈は不要；テキストプロンプトのみを用いる SD3 に依存する。

Figure 1: Example compositional food images generated by stable diffusion v3 model (SD3) and our method with corresponding reference images.

実験結果

リサーチクエスチョン

RQ1SD3 生成のマルチフード画像におけるオブジェクト絡み合いを追加の訓練やレイアウト注釈なしに緩和できるか。
RQ2明示的なレイアウトプロンプトと空間的手掛かりを組み合わせて複数の食品の分離と存在感を改善できるか。
RQ3動的接ぎ替えタイムステップの選択はレイアウト安定化における固定ステップより優れているか。
RQ4PG は食品以外の領域へ一般化できる程度はどのくらいか。

主な発見

PG は絡み合いを大幅に低減し、ターゲットオブジェクトの再現性を SD3 および他のベースラインと比較して改善した。
Full PG（レイアウト中断＋空間的手掛かり）はデータセット間で最も良い F1 スコアと BLIP のオブジェクト存在率を達成（VFN: F1 0.537; UEC-256: F1 0.165; BLIP-exist ≈ 99.6–99.7%）。
動的接ぎ替えタイムステップの方が固定ステップのバリエーションより最高の F1 および BLIP-exist スコアを得た。
PG は背景の多様性を抑制するレイアウト分離の強制により一部のベースラインに比べ FID を上昇させる（例：VFN で 49.0 対 40.5）。
SC は空間的指示を提供し、レイアウト中断は早期の融合を防ぐ；信頼性のある分離には両方の要素が必要。

Figure 2: Generated image from stable diffusion v1 and stable diffusion v3 model using text prompt: A photo of white rice and soup

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。