[논문 리뷰] SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image Generation
SpatialReward는 RL 기반 텍스트-투-이미지 생성에 대해 검증 가능하고 공간 인식 보상 모델을 도입하여 프롬프트 분해, 전문가 탐지, 그리고 시각-언어 체인-오브-생각 추론을 결합해 미세한 공간 일관성을 향상시키며, 복잡한 공간 관계를 평가하기 위한 SpatRelBench도 제공한다.
Recent advances in text-to-image (T2I) generation via reinforcement learning (RL) have benefited from reward models that assess semantic alignment and visual quality. However, most existing reward models pay limited attention to fine-grained spatial relationships, often producing images that appear plausible overall yet contain inaccuracies in object positioning. In this work, we present extbf{SpatialReward}, a verifiable reward model explicitly designed to evaluate spatial layouts in generated images. SpatialReward adopts a multi-stage pipeline: a \emph{Prompt Decomposer} extracts entities, attributes, and spatial metadata from free-form prompts; expert detectors provide accurate visual grounding of object positions and attributes; and a vision-language model applies chain-of-thought reasoning over grounded observations to assess complex spatial relations that are challenging for rule-based methods. To more comprehensively evaluate spatial relationships in generated images, we introduce extbf{SpatRelBench}, a benchmark covering object attributes, orientation, inter-object relations, and rendered text placement. Experiments on Stable Diffusion and FLUX show that incorporating SpatialReward into RL training consistently improves spatial consistency and overall generation quality, with results aligned more closely to human judgments. These findings indicate that verifiable reward models hold considerable potential for enabling more accurate and controllable optimization in text-to-image generation models.
연구 동기 및 목표
- 전역 시맨틱스를 넘어 T2I 생성에서 미세한 공간 평가의 필요성을 제시한다.
- 구조화된 프롬프트와 근거가 있는 증거를 통해 공간 배치를 검증 가능하게 평가하기 위해 SpatialReward를 제안한다.
- 방향성, 3D 레이아웃, 텍스트 배치를 포함한 복잡한 공간 관계를 벤치마킹하기 위해 SpatRelBench를 개발한다.
- SpatialReward가 공간 일관성을 향상시키고 RL 학습 모델 전반에서 인간 판단과의 일치를 보임을 증명한다.
제안 방법
- 자유 형식 프롬프트에서 엔티티, 속성 및 공간 관계를 추출하는 프롬프트 디컴포저.
- 검증 가능한 보상을 위해 객체 위치와 속성을 근거화하기 위해 전문가 탐지기를 사용한다.
- 근거화된 관찰에 대해 체인 오브 생각 추론이 포함된 비전-언어 모델을 적용해 공간 관계를 추론하고 최종 보상을 계산한다.
실험 결과
연구 질문
- RQ1검증 가능한 공간 보상 모델이 전체적 또는 템플릿 기반 보상에 비해 T2I 생성에서 미세한 공간 일관성을 개선할 수 있는가?
- RQ2프롬프트를 분해하고 탐지기로 근거화하는 것이 시각-언어 모델에만 의존하는 것보다 더 정확한 공간 추론을 가능하게 하는가?
- RQ3공간 인식 보상이 서로 다른 백본(예: Stable Diffusion, FLUX)에서 RL로 학습된 T2I 모델에 어떻게 영향을 미치는가?
- RQ4T2I 출력의 복잡한 공간 관계를 평가하기 위한 신뢰할 수 있는 벤치마크가 있는가?
- RQ5인간 판단이 SpatialReward 점수와 다른 보상 모델보다 더 강하게 상관관계가 있는가?
주요 결과
- SpatialReward는 SD3.5-M 및 FLUX1-dev에 대한 RL 학습에 통합될 때 공간 일관성과 생성 품질을 일관되게 향상시킨다.
- SpatialReward는 기준 보상 모델보다 인간의 공간 판단과 더 높은 정합성을 달성한다.
- 제거 연구는 전문가 탐지와 체인 오브 생각 추론이 성능에 상당히 기여하고, 제외 제약이 강건성을 제공함을 보여준다.
- SpatRelBench는 방향성, 3D 관계, 텍스트 배치와 같은 미세한 공간 차원을 포착하여 단일 차원 벤치마크로는 드러나지 않는 성능 격차를 드러낸다.
- 인간 정렬 연구는 평가된 보상들 중 SpatialReward가 인간 판단과 가장 높은 상관관계를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.