[論文レビュー] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing
Re-AlignはIC-CoT(In-Context Chain-of-Thought)を導入し、構造化された推論を画像生成・編集と整合させるとともに、代替報酬と多様性戦略を組み合わせてインコンテキストICGEの性能を向上させる。比較可能なモデルのICGEベンチマークで最先端の成果を達成します。
In-context image generation and editing (ICGE) enables users to specify visual concepts through interleaved image-text prompts, demanding precise understanding and faithful execution of user intent. Although recent unified multimodal models exhibit promising understanding capabilities, these strengths often fail to transfer effectively to image generation. We introduce Re-Align, a unified framework that bridges the gap between understanding and generation through structured reasoning-guided alignment. At its core lies the In-Context Chain-of-Thought (IC-CoT), a structured reasoning paradigm that decouples semantic guidance and reference association, providing clear textual target and mitigating confusion among reference images. Furthermore, Re-Align introduces an effective RL training scheme that leverages a surrogate reward to measure the alignment between structured reasoning text and the generated image, thereby improving the model's overall performance on ICGE tasks. Extensive experiments verify that Re-Align outperforms competitive methods of comparable model scale and resources on both in-context image generation and editing tasks.
研究の動機と目的
- インコンテキスト画像生成と編集(ICGE)を統一フレームワークで理解と生成の橋渡しを行う。
- 意味論的ガイダンスと参照結合を分離するためのIC-CoTを導入する。
- 政策最適化を安定化させるための代替報酬と推論誘発型多様性を開発する。
- IC-CoT注釈付きの高品質ICGEデータセットRe-Align-410Kを構築する。
- ICGEベンチマークで最先端の性能を、競合するリソースで示す。
提案手法
- IC-CoTを提案し、推論を意味論的ガイダンス(予測キャプション)と参照結合(各参照画像の役割)に分解する。
- IC-CoTに conditioned したBAGEL風拡散生成に従うRectified Flowを介して画像生成を学習する。
- 生成画像xとIC-CoTから抽出されたキャプションcとのCLIP画像-テキスト類似度に基づく代理報酬s(x,c)を用いる。
- 訓練時の報酬信号の分散を高めるための推論誘発型多様性戦略を導入する。
- IC-CoTと生成画像との整合性を最適化するためにGroup Relative Policy Optimization(GRPO)を用い、監視付き微調整(SFT)とRLベースの整合の二段階訓練を行う。
- データ構築を自動化し、IC-CoT注釈付きの多画像ICGEタスクを持つRe-Align-410Kを作成する。
実験結果
リサーチクエスチョン
- RQ1構造化された推論(IC-CoT)は、ICGEタスクにおける理解プロンプトと画像生成の整合性をどのように高めるか?
- RQ2キャプション-画像の整合性に基づく代理報酬は、IC-CoT指導の下で生成・編集品質を改善するか?
- RQ3推論誘発型多様性戦略はICGEの強化学習を安定化させるか?
- RQ4IC-CoTは主体・属性・場面ベースのタスクで生成と編集の性能にどのような影響を与えるか?
- RQ5Re-Alignは同程度のモデル規模とリソース条件下で既存手法と比べてどの程度優れているか?
主な発見
- Re-AlignはICGEタスクにおいて比較可能なモデルの中で最先端の性能を達成する。
- IC-CoTは明確な意味論的ガイダンスと参照役割を提供し、参照の混乱を減らし生成忠実度を向上させる。
- キャプション-画像整合性に基づく代理報酬は推論と生成画像の整合性を改善し、最適化を支援する。
- 推論誘発型多様性は報酎信号の分散を増やし訓練を安定化させ、全体的な性能を向上させる。
- OmniContextとDreamOmni2Benchのベンチマークにおいて、Re-AlignはBAGEL、OmniGen2、Echo-4o、Qwen-Image-Edit-2509、DreamOmni2などのベースラインをほとんどの指標で上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。