QUICK REVIEW

[논문 리뷰] Order Is Not Layout: Order-to-Space Bias in Image Generation

Yongkang Zhang, Zonglin Zhao|arXiv (Cornell University)|2026. 03. 04.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

이 논문은 텍스트-투-이미지 및 이미지-투-이미지 생성에서 보편적인 Order-to-Space Bias(OTS)를 식별합니다. 언급 순서가 부당하게 공간 레이아웃과 엔티티-역할 바인딩을 지시합니다; OTS-Bench를 도입해 제어된 평가를 수행하고, 특정 미세 조정과 시간적 프롬프트 개입으로 완화함을 보여줍니다.

ABSTRACT

We study a systematic bias in modern image generation models: the mention order of entities in text spuriously determines spatial layout and entity--role binding. We term this phenomenon Order-to-Space Bias (OTS) and show that it arises in both text-to-image and image-to-image generation, often overriding grounded cues and causing incorrect layouts or swapped assignments. To quantify OTS, we introduce OTS-Bench, which isolates order effects with paired prompts differing only in entity order and evaluates models along two dimensions: homogenization and correctness. Experiments show that Order-to-Space Bias (OTS) is widespread in modern image generation models, and provide evidence that it is primarily data-driven and manifests during the early stages of layout formation. Motivated by this insight, we show that both targeted fine-tuning and early-stage intervention strategies can substantially reduce OTS, while preserving generation quality.

연구 동기 및 목표

현대 T2I 및 I2I 모델에서 Order-to-Space Bias(OTS)를 식별하고 특성화한다.
OTS-Bench를 개발해 순서 주도 레이아웃 및 역할 바인딩 효과를 분리하고 측정한다.
주요 모델 전반에서 OTS의 유병률을 평가하고 데이터 주도적 기원을 추론한다.
OTS를 감소시키되 이미지 품질에 악영향을 주지 않는 완화 전략을 탐색한다.

제안 방법

OTS-Bench를 138개의 엔티티와 172개의 동작/상태에서 생성된 4,300개의 테스트 케이스로 구성해 동질화와 정확성을 탐색한다.
두 가지 평가 차원: 동질화(레이아웃 또는 동작 배정)와 정확도(그라운딩 일치 출력)를 정의한다.
일치 Prompts와 역순(Aligned vs. Reverse) 쌍 버전을 사용해 T2I 및 I2I 작업에서 순서 효과를 분리한다.
사람-일치 VL 평가자(Qwen3-VL-8B-Instruct)를 자동 점수기로 삼아 9개 최첨단 모델을 평가한다.
웹 규모 자막-이미지 데이터셋(LAION-2B-en-aesthetic, DataComp-Large)에서 순서-공간 정렬을 측정해 데이터 기원을 분석한다.
생성 시 개입(지연된 순서 조건화) 및 대표 백본(FLUX-dev, Qwen-Image)에 대한 플립 기반 LoRA-SFT 미세 조정을 통해 완화 가능성을 조사한다.
레이아웃이 형성되는 시점을 찾기 위해 노이즈 감소 단계 개입으로 시간적 동역학을 examines한다.

실험 결과

연구 질문

RQ1현대 T2I 및 I2I 모델에서 Order-to-Space Bias가 얼마나 널리 퍼져 있는가?
RQ2텍스트의 언급 순서가 그라운딩 가능한 신호가 있을 때 공간 레이아웃 또는 엔티티-역할 바인딩을 부당하게 지시하는가?
RQ3OTS의 데이터 주도적 기원은 무엇이며, 웹 규모 말뭉치에서의 존재를 양화할 수 있는가?
RQ4타깃 학습 또는 생성 시 개입으로 OTS를 완화하면서 이미지 품질을 보존할 수 있는가?

주요 결과

모델	동질화 지수(낮을수록 좋음)	T2I 정확도 Ali (%)	T2I 정확도 Rev (%)	I2I 정확도 Ali (%)	I2I 정확도 Rev (%)
SDXL	52.6	83.3	23.6	59.7	0.62
SD3.5	84.2	84.8	21.1	63.7	0.71
FLUX-dev	88.8	79.8	24.7	84.3	0.76
Qwen-Image	91.6	81.8	28.2	88.1	0.79
DALL-E 3	70.4	87.7	–	–	–
Midjourney v7	86.8	90.2	21.7	68.5	0.82
Kling-v2	77.2	93.6	14.1	79.5	0.76
GPT-Image	86.4	79.5	15.3	64.2	0.79
NanoBanana	81.0	93.2	17.6	75.6	0.91

OTS는 T2I 및 I2I 생성 모두에서 널리 퍼져 있으며, 동질화가 높고 그라운딩과 충돌할 때 정확성이 크게 감소한다.
T2I에서 동질화 점수는 일반적으로 높다(예: 모델 간 52.6–91.6), 정확도는 Ali에서 대략 79–94%에서 Rev로 대략 14–28%로 급락할 수 있다.
I2I에서 동질화는 더 넓게(≈35–83) 분포하며, Rev에서의 정확도는 상대적으로 높지만 Ali에 비해 저하된다(예: 62–92%).
웹 규모 데이터는 강한 Order-to-Space 규칙성을 보여 OTS의 데이터 주도적 기원을 시사한다(OTS-align ≈87–89%).
시간적 분석은 OTS를 초기 확산 단계로 국한시키며, 순서-민감 조건화를 지연시키면 동질화가 감소하고 품질은 유지된다.
플립 기반 LoRA-SFT 미세 조정은 순서에 고정된 레이아웃을 줄이면서 이미지 품질을 유지하고 때로는 그라운딩과의 정렬을 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.