Skip to main content
QUICK REVIEW

[论文解读] Training-Free Text-to-Image Compositional Food Generation via Prompt Grafting

Xinyue Pan, Yuhao Chen|arXiv (Cornell University)|Jan 25, 2026
Generative Adversarial Networks and Image Synthesis被引用 0
一句话总结

本文提出 Prompt Grafting,一种训练-free 方法,通过先用布局提示形成可分离的布局,然后嫁接目标食物提示,避免多食品生成中的对象纠缠,并在不对扩散模型进行微调的情况下提升多物品的存在感。

ABSTRACT

Real-world meal images often contain multiple food items, making reliable compositional food image generation important for applications such as image-based dietary assessment, where multi-food data augmentation is needed, and recipe visualization. However, modern text-to-image diffusion models struggle to generate accurate multi-food images due to object entanglement, where adjacent foods (e.g., rice and soup) fuse together because many foods do not have clear boundaries. To address this challenge, we introduce Prompt Grafting (PG), a training-free framework that combines explicit spatial cues in text with implicit layout guidance during sampling. PG runs a two-stage process where a layout prompt first establishes distinct regions and the target prompt is grafted once layout formation stabilizes. The framework enables food entanglement control: users can specify which food items should remain separated or be intentionally mixed by editing the arrangement of layouts. Across two food datasets, our method significantly improves the presence of target objects and provides qualitative evidence of controllable separation.

研究动机与目标

  • 解决组成性食品图像生成中的对象纠缠与对象缺失问题。
  • 在不对扩散模型进行微调的条件下实现可靠的多食品生成。
  • 提供一个训练无关框架,仅使用文本提示创建可分离的布局并填充内容。
  • 提供可控的生成,用户可以决定哪些物品保持分离或纠缠。

提出的方法

  • 两阶段扩散采样:先以布局提示进行条件化以建立清晰区域,然后在布局稳定后将其嫁接到目标提示。
  • 布局中断,随时间变化的条件 c(t) 从 c_layout 切换到 c_target,切换时间步为嫁接时刻 T。
  • 通过监测基于 CLIP 的布局–文本相似度来动态确定嫁接时步以检测布局稳定性(S_lay)。
  • 无分类器引导,使用负提示在最终细化阶段抑制所有物品聚集在同一盘中的情况。
  • 不进行模型微调或布局标注;仅依赖带文本提示的 SD3。
Figure 1: Example compositional food images generated by stable diffusion v3 model (SD3) and our method with corresponding reference images.
Figure 1: Example compositional food images generated by stable diffusion v3 model (SD3) and our method with corresponding reference images.

实验结果

研究问题

  • RQ1在不进行额外训练或布局标注的情况下,SD3 生成的多食品图像中的对象纠缠是否能够被缓解?
  • RQ2将显式布局提示与空间线索相结合是否能改善多个食品的分离与存在感?
  • RQ3动态嫁接时步是否优于固定步长的嫁接在布局稳定性方面的表现?
  • RQ4PG 是否能超越食品领域推广到非食品领域?

主要发现

  • 与 SD3 及其他基线相比,PG 在两个数据集上显著降低了纠缠并提升了目标对象召回率。
  • 完整的 PG(布局中断 + 空间提示)在两个数据集上实现了最佳的 F1 分数与 BLIP 存在率(VFN: F1 0.537;UEC-256: F1 0.165;BLIP-exist 约 99.6–99.7%)。
  • 动态嫁接时步相对于固定步长的变体在 F1 和 BLIP-exist 评分上达到最高。
  • 由于强制的布局分离降低了背景多样性,PG 相对于某些基线在 FID 上提高(例如,在 VFN 上为 49.0 vs 40.5)。
  • SC 提供空间引导,而布局中断防止早期融合;两者结合是实现可靠分离所必需的。
Figure 2: Generated image from stable diffusion v1 and stable diffusion v3 model using text prompt: A photo of white rice and soup
Figure 2: Generated image from stable diffusion v1 and stable diffusion v3 model using text prompt: A photo of white rice and soup

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。