[論文レビュー] SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image Generation
SpatialReward は、プロンプト分解、専門家検出、ビジョン-言語の chain-of-thought 推論を組み合わせた、検証可能で空間認識を持つ報酬モデルを導入し、微細な空間的一貫性を向上させる。さらに、複雑な空間関係を評価する SpatRelBench を提供する。
Recent advances in text-to-image (T2I) generation via reinforcement learning (RL) have benefited from reward models that assess semantic alignment and visual quality. However, most existing reward models pay limited attention to fine-grained spatial relationships, often producing images that appear plausible overall yet contain inaccuracies in object positioning. In this work, we present extbf{SpatialReward}, a verifiable reward model explicitly designed to evaluate spatial layouts in generated images. SpatialReward adopts a multi-stage pipeline: a \emph{Prompt Decomposer} extracts entities, attributes, and spatial metadata from free-form prompts; expert detectors provide accurate visual grounding of object positions and attributes; and a vision-language model applies chain-of-thought reasoning over grounded observations to assess complex spatial relations that are challenging for rule-based methods. To more comprehensively evaluate spatial relationships in generated images, we introduce extbf{SpatRelBench}, a benchmark covering object attributes, orientation, inter-object relations, and rendered text placement. Experiments on Stable Diffusion and FLUX show that incorporating SpatialReward into RL training consistently improves spatial consistency and overall generation quality, with results aligned more closely to human judgments. These findings indicate that verifiable reward models hold considerable potential for enabling more accurate and controllable optimization in text-to-image generation models.
研究の動機と目的
- T2I 生成における全局的意味論を超えた微細な空間評価の必要性を動機づける。
- 構造化されたプロンプトと根拠のある証拠を通じて空間レイアウトを検証可能に評価する SpatialReward を提案する。
- 向き、3D レイアウト、テキスト配置を含む複雑な空間関係をベンチマークする SpatRelBench を開発する。
- SpatialReward が空間的一貫性を向上させ、RL 訓練済みモデルと人間の判断と一致することを示す。
提案手法
- 自由形式のプロンプトからエンティティ、属性、空間関係を抽出するプロンプト分解器。
- 検出器を用いて物体の位置と属性を根拠づけ可能な報酬のために grounding。
- grounding された観測を基にチェーン・オブ・思考推論を伴うビジョン-言語モデルを適用し、空間関係を推定して最終報酬を計算。
実験結果
リサーチクエスチョン
- RQ1検証可能な空間報酬モデルは、全体的またはテンプレートベースの報酬と比較して、T2I 生成の微細な空間的一貫性を改善できるか。
- RQ2プロンプトを分解し、検出器で grounding することで、視覚-言語モデルのみに依存する場合より空間推論が正確になるか。
- RQ3空間認識型報酬は、Stable Diffusion、FLUX などの異なるバックボーンを横断して RL 訓練済み T2I モデルにどのような影響を与えるか。
- RQ4T2I 出力の複雑な空間関係を評価する信頼できるベンチマークは存在するか。
- RQ5人間の判断は SpatialReward のスコアと、他の報酬モデルよりも強く相関するか。
主な発見
- SpatialReward は、SD3.5-M および FLUX1-dev の RL 訓練に組み込んだ場合、空間的一貫性と生成品質を一貫して改善する。
- SpatialReward は、基準となる報酬モデルよりも人間の空間判断との整合性を高く達成する。
- アブレーション研究は、専門家検出とチェーン・オブ・思考推論が性能に大きく寄与することを示し、排除制約は頑健性を提供する。
- SpatRelBench は、向き、3D 関係、テキスト配置などの微細な空間次元を捉え、単一次元のベンチマークでは露見しない性能ギャップを明らかにする。
- 人間との整合性研究は、評価対象の報酬の中で SpatialReward が人間判断と最も高い相関を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。