Skip to main content
QUICK REVIEW

[論文レビュー] Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Xiangyu Zhao, Peiyuan Zhang|arXiv (Cornell University)|Mar 12, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

FIRMは画像編集とテキストから画像への生成のためのタスク特化型・堅牢な報酬モデルと、CMEおよびQMAを組み合わせたBase-and-Bonus RL戦略を導入し、忠実度と指示遵守を向上させる。

ABSTRACT

Reinforcement learning (RL) has emerged as a promising paradigm for enhancing image editing and text-to-image (T2I) generation. However, current reward models, which act as critics during RL, often suffer from hallucinations and assign noisy scores, inherently misguiding the optimization process. In this paper, we present FIRM (Faithful Image Reward Modeling), a comprehensive framework that develops robust reward models to provide accurate and reliable guidance for faithful image generation and editing. First, we design tailored data curation pipelines to construct high-quality scoring datasets. Specifically, we evaluate editing using both execution and consistency, while generation is primarily assessed via instruction following. Using these pipelines, we collect the FIRM-Edit-370K and FIRM-Gen-293K datasets, and train specialized reward models (FIRM-Edit-8B and FIRM-Gen-8B) that accurately reflect these criteria. Second, we introduce FIRM-Bench, a comprehensive benchmark specifically designed for editing and generation critics. Evaluations demonstrate that our models achieve superior alignment with human judgment compared to existing metrics. Furthermore, to seamlessly integrate these critics into the RL pipeline, we formulate a novel "Base-and-Bonus" reward strategy that balances competing objectives: Consistency-Modulated Execution (CME) for editing and Quality-Modulated Alignment (QMA) for generation. Empowered by this framework, our resulting models FIRM-Qwen-Edit and FIRM-SD3.5 achieve substantial performance breakthroughs. Comprehensive experiments demonstrate that FIRM mitigates hallucinations, establishing a new standard for fidelity and instruction adherence over existing general models. All of our datasets, models, and code have been publicly available at https://firm-reward.github.io.

研究の動機と目的

  • RLにおける堅牢な報酬モデル(批評家)を通じて画像編集と生成の健全性・忠実性を動機づける。
  • 編集と生成のための高品質でタスク特化型報酬データセットを開発する。
  • 報酬モデルと人間判断の整合性を評価する人間注釈付きベンチマークを作成する。
  • 報酬のハッキングを防ぎ、RL中の競合目的のバランスを取る報酬定式を提案する。

提案手法

  • 2つのデータパイプラインを構築する:FIRM-Edit(差分優先)とFIRM-Gen(計画-後評価)を用いて報酬モデルFIRM-Edit-8BとFIRM-Gen-8Bを訓練する。
  • FIRM-Benchという編集と生成の批評家向けの人間注釈付きベンチマークを構築する。
  • Qwen3-VL-8B-Instructから初期化された報酬モデルを訓練し、FIRM-Benchで人間判断との整合性を評価する。
  • Base-and-Bonus戦略でRLに報酬を組み込み、編集にはConsistency-Modulated Execution(CME)、生成にはQuality-Modulated Alignment(QMA)を導入する。
  • DiffusionNFTベースのRLを適用し、FIRM報酬に導かれてエディタとジェネレータを最適化する。
  • 複数のベンチマークで編集と生成の両タスクにおいて実質的な性能向上を示す。
Figure 1 : Comparison of image editing results across different methods. “w. FIRM-Edit-8B” indicates that FIRM-Edit-8B is adopted as the reward model during RL process.
Figure 1 : Comparison of image editing results across different methods. “w. FIRM-Edit-8B” indicates that FIRM-Edit-8B is adopted as the reward model during RL process.

実験結果

リサーチクエスチョン

  • RQ1画像編集と画像生成における忠実性を信頼性高く評価できる報酬モデル(批評家)をどのように設計すべきか。
  • RQ2タスク特化型報酬パイプラインは一般目的の報酬モデルと比較して人間判断との整合性を改善するか。
  • RQ3Base-and-Bonus報酬戦略はRLにおける報酬ハッキングを緩和し、編集と生成の競合目的のバランスを取れるか。
  • RQ4FIRM報酬に導かれたRLを用いたモデルは標準ベースラインに対して標準ベンチマークで顕著な gains をもたらすか。

主な発見

  • FIRM-Edit-8BおよびFIRM-Gen-8Bは、公開型MLLMsおよびいくつかの独自モデルと比較してFIRM-Bench上の人間判断との整合性が優れている。
  • 編集では、FIRM-Edit-8Bが評価済みベースラインの中で最も低いExecution MAE(0.53)とConsistency MAE(0.73)を達成し、全体のMAEは0.62。
  • 生成では、FIRM-Gen-8Bはより大きなモデルと比べても全体MAEが競争的(0.51)で、複雑なプロンプトで強力な性能を示す。
  • CME報酬定式は報酬ハッキングを効果的に緩和し編集性能を向上させ、一方QMAは指示追従が強い場合に生成品質を強化する。
  • FIRM報酬に導かれたRLは、GEditBench、ImgEdit、GenEval、DPGBench、TIIF、UniGenBench++などのベンチマークで対応タスクに対して最先端または非常に競争力のある結果を示す。
  • FIRM-RLモデル(例:FIRM-Qwen-Edit、FIRM-SD3.5)は、編集の例では約2,400サンプルといった比較的小さなデータ量でもベースラインより大幅な改善を示す(より大きなベースラインと比べて)。
Figure 2 : Comparison of T2I generation results across different methods. “w. FIRM-Gen-8B” indicates that FIRM-Gen-8B is adopted as the reward model during RL process.
Figure 2 : Comparison of T2I generation results across different methods. “w. FIRM-Gen-8B” indicates that FIRM-Gen-8B is adopted as the reward model during RL process.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。