[論文レビュー] Order Is Not Layout: Order-to-Space Bias in Image Generation
論文はテキストから画像への生成および画像から画像への生成における広範な Order-to-Space Bias (OTS) を特定し、言及順序が空間配置とエンティティ役割の結びつきを不正に決定する現象を指摘する。OTS-Bench を用いた制御評価を提案し、対象のファインチューニングや時刻依存のプロンプト介入を通じて緩和可能性を示す。
We study a systematic bias in modern image generation models: the mention order of entities in text spuriously determines spatial layout and entity--role binding. We term this phenomenon Order-to-Space Bias (OTS) and show that it arises in both text-to-image and image-to-image generation, often overriding grounded cues and causing incorrect layouts or swapped assignments. To quantify OTS, we introduce OTS-Bench, which isolates order effects with paired prompts differing only in entity order and evaluates models along two dimensions: homogenization and correctness. Experiments show that Order-to-Space Bias (OTS) is widespread in modern image generation models, and provide evidence that it is primarily data-driven and manifests during the early stages of layout formation. Motivated by this insight, we show that both targeted fine-tuning and early-stage intervention strategies can substantially reduce OTS, while preserving generation quality.
研究の動機と目的
- 現代の T2I および I2I モデルにおける Order-to-Space Bias (OTS) の識別と特徴付け。
- OTS-Bench を開発し、順序駆動のレイアウトと役割結びつきの影響を分離・測定。
- 主要モデルでのOTSの蔓延を評価し、データ駆動の起源を推定。
- OTS を低減しつつ画像品質を損なわない緩和戦略を模索。
提案手法
- OTS-Bench を 4,300 テストケース(138 エンティティ、172 の動作/状態)で構築し、均質化と正確性を probe。
- 評価の2 つの次元を定義:均質化(レイアウトまたは動作割り当て)と正確性( grounding 一貫性の出力)。
- 順序効果を分離するため、ペアのプロンプトバリアント(Aligned vs. Reverse)を用い、T2I および I2I のタスクで比較。
- 9 つの最先端モデルを、人間に揃えた VL 評価者(Qwen3-VL-8B-Instruct)を自動スコアラーとして評価。
- ウェブスケールのキャプション–画像データセット(LAION-2B-en-aesthetic、DataComp-Large)での順序-to-space の整合性を測定してデータ起源を分析。
- 生成時介入(遅延順序条件付け)と代表バックボーン(FLUX-dev、Qwen-Image)でのフリップベース LoRA-SFT ファインチューニングによる緩和を調査。
- OTS の時系列動態を、デノイジングステップ介入を実施してレイアウトが形成される時点を特定することで検討。
実験結果
リサーチクエスチョン
- RQ1現代の T2I および I2I モデルにおける Order-to-Space Bias の蔓延度はどれくらいか?
- RQ2言及順序が、 grounding cues が利用可能な場合に空間レイアウトやエンティティ役割結びつきを不正に決定するか?
- RQ3OTS のデータ駆動的起源は何か、ウェブスケールコーパスでその存在を定量化できるか?
- RQ4標的を絞った訓練や生成時介入で OTS を緩和しつつ画像品質を保てるか?
主な発見
| Model | Homogenization (lower is better) | T2I Correctness Ali (%) | T2I Correctness Rev (%) | I2I Correctness Ali (%) | I2I Correctness Rev (%) | Cohen’s Kappa |
|---|---|---|---|---|---|---|
| SDXL | 52.6 | 83.3 | 23.6 | 59.7 | 0.62 | |
| SD3.5 | 84.2 | 84.8 | 21.1 | 63.7 | 0.71 | |
| FLUX-dev | 88.8 | 79.8 | 24.7 | 84.3 | 0.76 | |
| Qwen-Image | 91.6 | 81.8 | 28.2 | 88.1 | 0.79 | |
| DALL-E 3 | 70.4 | 87.7 | – | – | – | |
| Midjourney v7 | 86.8 | 90.2 | 21.7 | 68.5 | 0.82 | |
| Kling-v2 | 77.2 | 93.6 | 14.1 | 79.5 | 0.76 | |
| GPT-Image | 86.4 | 79.5 | 15.3 | 64.2 | 0.79 | |
| NanoBanana | 81.0 | 93.2 | 17.6 | 75.6 | 0.91 |
- OTS は T2I および I2I ジェネレーションの両方に広く見られ、均質化が高く、 grounding への整合性が崩れる場合に大幅に低下する。
- T2I では均質化スコアが通常高く(モデル間で 52.6–91.6 例)、正確性は Ali(約79–94%)から Rev(約14–28%)へ急落することがある。
- I2I では均質化はより幅広く(約35–83)、Rev による正確性は相対的に高いが Ali より劣化(例:62–92%)。
- ウェブスケールデータは強い order-to-space 規則性を示し(OTS-align ≈87–89%)、バイアスのデータ駆動的起源を示唆する。
- OTS は初期拡散段階に局在し、順序依存の条件付けを遅らせると均質化を低減し品質を維持できる。
- Flip ベースの LoRA-SFT ファインチューニングは、順序固定レイアウトを低下させつつ画像品質を維持し、 grounding との整合性を時に改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。