[论文解读] Order Is Not Layout: Order-to-Space Bias in Image Generation
论文在文本到图像和图像到图像生成中识别出普遍存在的从序到空间偏差(OTS),其中提及顺序错误地支配空间布局与实体-角色绑定;引入 OTS-Bench 以实现受控评估,并通过针对性微调和时间性提示干预展示缓解效果。
We study a systematic bias in modern image generation models: the mention order of entities in text spuriously determines spatial layout and entity--role binding. We term this phenomenon Order-to-Space Bias (OTS) and show that it arises in both text-to-image and image-to-image generation, often overriding grounded cues and causing incorrect layouts or swapped assignments. To quantify OTS, we introduce OTS-Bench, which isolates order effects with paired prompts differing only in entity order and evaluates models along two dimensions: homogenization and correctness. Experiments show that Order-to-Space Bias (OTS) is widespread in modern image generation models, and provide evidence that it is primarily data-driven and manifests during the early stages of layout formation. Motivated by this insight, we show that both targeted fine-tuning and early-stage intervention strategies can substantially reduce OTS, while preserving generation quality.
研究动机与目标
- 识别并表征现代 T2I 与 I2I 模型中的从序到空间偏差(OTS)。
- 开发 OTS-Bench,以 isolating 并测量顺序驱动的布局与角色绑定效应。
- 评估主流模型中的 OTS 的普遍性并推断其数据驱动起源。
- 探索在不降低图像质量的前提下,降低 OTS 的缓解策略。
提出的方法
- 用来自 138 个实体和 172 个动作/状态的 4,300 个测试用例构建 OTS-Bench,以探测同质化与正确性。
- 定义两条评估维度:同质化(布局或动作分配)与正确性( grounding 一致的输出)。
- 使用成对提示变体(Aligned 与 Reverse)以隔离序序效应,覆盖 T2I 与 I2I 任务。
- 使用人类对齐的 VL 评判者(Qwen3-VL-8B-Instruct)作为自动评分器,对九个最先进模型进行评估。
- 通过测量网页规模的标题-图片数据集的序到空间对齐来分析数据起源(LAION-2B-en-aesthetic、DataComp-Large)。
- 通过生成时干预(延迟序条件)和在代表性骨干模型(FLUX-dev、Qwen-Image)上进行基于翻转的 LoRA-SFT 微调来研究缓解手段。
- 通过对去噪步骤干预来研究 OTS 的时间动态,以定位布局形成的时机。
实验结果
研究问题
- RQ1当代 T2I 与 I2I 模型中,OTS 的普遍性如何?
- RQ2在有 grounding 提示可用时,文本中的顺序是否会错误地决定空间布局或实体-角色绑定?
- RQ3OTS 的数据驱动起源是什么,我们是否能量化其在网页规模语料中的存在?
- RQ4针对性训练或生成时干预是否能在不损害图像质量的前提下缓解 OTS?
主要发现
| 模型 | 同质化(越低越好) | T2I 正确性 Ali (%) | T2I 正确性 Rev (%) | I2I 正确性 Ali (%) | I2I 正确性 Rev (%) | Cohen’s Kappa |
|---|---|---|---|---|---|---|
| SDXL | 52.6 | 83.3 | 23.6 | 59.7 | 0.62 | |
| SD3.5 | 84.2 | 84.8 | 21.1 | 63.7 | 0.71 | |
| FLUX-dev | 88.8 | 79.8 | 24.7 | 84.3 | 0.76 | |
| Qwen-Image | 91.6 | 81.8 | 28.2 | 88.1 | 0.79 | |
| DALL-E 3 | 70.4 | 87.7 | – | – | – | |
| Midjourney v7 | 86.8 | 90.2 | 21.7 | 68.5 | 0.82 | |
| Kling-v2 | 77.2 | 93.6 | 14.1 | 79.5 | 0.76 | |
| GPT-Image | 86.4 | 79.5 | 15.3 | 64.2 | 0.79 | |
| NanoBanana | 81.0 | 93.2 | 17.6 | 75.6 | 0.91 |
- OTS 在 T2I 和 I2I 生成中普遍存在,伴随高度同质化以及当顺序与 grounding 冲突时显著下降的正确性。
- 在 T2I 中,同质化分数通常较高(例如在模型之间的 52.6–91.6),正确性可从 Ali(约 79–94%)降至 Rev(约 14–28%)。
- 在 I2I 中,同质化范围更广(约 35–83),Rev 的正确性相对仍然较高但低于 Ali(约 62–92%)。
- 网页规模数据表现出强烈的从序到空间规律性(OTS-align 约 87–89%),表明偏差具有数据驱动起源。
- 时间分析将 OTS 定位在早期扩散阶段;延迟对顺序敏感的条件化降低了同质化并保留了图像质量。
- 基于翻转的 LoRA-SFT 微调在保持图像质量的同时减少了“按顺序锁定的布局”,有时还能提升与 grounding 的对齐。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。