Skip to main content
QUICK REVIEW

[논문 리뷰] Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Xiangyu Zhao, Peiyuan Zhang|arXiv (Cornell University)|2026. 03. 12.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

FIRM은 이미지 편집과 텍스트-이미지 생성에 대해 작업 특정하고 강인한 보상 모델을 도입하고, CME와 QMA를 활용한 Base-and-Bonus RL 전략으로 충실도와 지시 준수를 개선합니다.

ABSTRACT

Reinforcement learning (RL) has emerged as a promising paradigm for enhancing image editing and text-to-image (T2I) generation. However, current reward models, which act as critics during RL, often suffer from hallucinations and assign noisy scores, inherently misguiding the optimization process. In this paper, we present FIRM (Faithful Image Reward Modeling), a comprehensive framework that develops robust reward models to provide accurate and reliable guidance for faithful image generation and editing. First, we design tailored data curation pipelines to construct high-quality scoring datasets. Specifically, we evaluate editing using both execution and consistency, while generation is primarily assessed via instruction following. Using these pipelines, we collect the FIRM-Edit-370K and FIRM-Gen-293K datasets, and train specialized reward models (FIRM-Edit-8B and FIRM-Gen-8B) that accurately reflect these criteria. Second, we introduce FIRM-Bench, a comprehensive benchmark specifically designed for editing and generation critics. Evaluations demonstrate that our models achieve superior alignment with human judgment compared to existing metrics. Furthermore, to seamlessly integrate these critics into the RL pipeline, we formulate a novel "Base-and-Bonus" reward strategy that balances competing objectives: Consistency-Modulated Execution (CME) for editing and Quality-Modulated Alignment (QMA) for generation. Empowered by this framework, our resulting models FIRM-Qwen-Edit and FIRM-SD3.5 achieve substantial performance breakthroughs. Comprehensive experiments demonstrate that FIRM mitigates hallucinations, establishing a new standard for fidelity and instruction adherence over existing general models. All of our datasets, models, and code have been publicly available at https://firm-reward.github.io.

연구 동기 및 목표

  • 강력하고 신뢰할 수 있는 보상 모델(비평가)을 RL에서 활용하여 강력하고 충실한 이미지 편집 및 생성을 동기화한다.
  • 편집 및 생성을 위한 고품질의 작업 특화 보상 데이터 세트를 개발한다.
  • 인간 주석 벤치마크를 만들어 보상 모델의 인간 판단과의 정합성을 평가한다.
  • 보상 수식이 보상 해킹을 방지하고 RL 중 상충하는 목표들을 균형 있게 다루도록 제안한다.

제안 방법

  • 두 개의 데이터 파이프라인을 구성한다: FIRM-Edit(차이 우선)와 FIRM-Gen(계획-후 점수화)으로 보상 모델 FIRM-Edit-8B와 FIRM-Gen-8B를 학습한다.
  • FIRM-Bench를 구축한다, 편집 및 생성 비평가를 위한 인간 주석 벤치마크.
  • Qwen3-VL-8B-Instruct에서 초기화된 보상 모델을 학습하고 FIRM-Bench에서 인간 판단과의 정렬을 평가한다.
  • Base-and-Bonus 전략으로 RL에 보상을 통합하고, 편집에 대한 Consistency-Modulated Execution(CME)와 생성에 대한 Quality-Modulated Alignment(QMA)을 도입한다.
  • DiffusionNFT 기반 RL을 적용하여 보상에 의해 안내되는 편집자와 생성기를 최적화한다.
  • 여러 벤치마크에서 편집 및 생성 작업 모두에서 상당한 성능 향상을 입증한다.
Figure 1 : Comparison of image editing results across different methods. “w. FIRM-Edit-8B” indicates that FIRM-Edit-8B is adopted as the reward model during RL process.
Figure 1 : Comparison of image editing results across different methods. “w. FIRM-Edit-8B” indicates that FIRM-Edit-8B is adopted as the reward model during RL process.

실험 결과

연구 질문

  • RQ1보상 모델(비평가)이 이미지 편집 및 이미지 생성에서 충실도를 신뢰성 있게 평가하도록 설계될 수 있는가?
  • RQ2작업 특화 보상 파이프라인이 일반 목적 보상 모델과 비교해 인간 판단과의 정합성을 향상시키는가?
  • RQ3Base-and-Bonus 보상 전략이 RL에서 보상 해킹을 완화하고 편집 및 생성 간 상충하는 목표를 균형 있게 다룰 수 있는가?
  • RQ4FIRM 보상으로 안내된 RL 모델이 표준 벤치마크에서 최신 baselines 대비 상당한 이점을 보여주나?

주요 결과

  • FIRM-Edit-8B와 FIRM-Gen-8B는 FIRM-Bench에서 인간 판단과의 정합성이 오픈소스 MLLMs 및 다수의 독점 모델 대비 우수하다.
  • 편집에서, FIRM-Edit-8B는 평가된 기준 중 실행 MAE(0.53) 및 일관성 MAE(0.73) 최저를 달성하여 전체 MAE 0.62를 얻었다.
  • 생성에서, FIRM-Gen-8B는 더 큰 모델 대비 경쟁력 있는 전체 MAE(0.51)를 달성하며 복잡한 프롬프트에서 강한 성능을 보인다.
  • CME 보상 수식은 보상 해킹을 효과적으로 완화하고 편집 성능을 향상시키며, QMA는 지침 준수가 강할 때 생성 품질을 강화한다.
  • FIRM 보상으로 유도된 RL은 GEditBench, ImgEdit, GenEval, DPGBench, TIIF 및 UniGenBench++ 등의 벤치마크에서 해당 작업에 대해 최첨단 또는 매우 경쟁력 있는 결과를 낸다.
  • FIRM-RL 모델들(예: FIRM-Qwen-Edit, FIRM-SD3.5)은 비교적 더 작은 데이터 규모(예: 편집용 2,400 샘플)로도 baselines 대비 상당한 개선을 보여준다.
Figure 2 : Comparison of T2I generation results across different methods. “w. FIRM-Gen-8B” indicates that FIRM-Gen-8B is adopted as the reward model during RL process.
Figure 2 : Comparison of T2I generation results across different methods. “w. FIRM-Gen-8B” indicates that FIRM-Gen-8B is adopted as the reward model during RL process.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.