[논문 리뷰] Joint Reward Modeling: Internalizing Chain-of-Thought for Efficient Visual Reward Models
Joint Reward Modeling (JRM)은 언어 감독을 공유 시각-언어 백본에 통합하여 구별 가능한 보상 모델에 의미 이해와 잠재적 추론을 부여하고, 빠른 추론을 유지하면서 최첨단 결과를 달성한다.
Reward models are critical for reinforcement learning from human feedback, as they determine the alignment quality and reliability of generative models. For complex tasks such as image editing, reward models are required to capture global semantic consistency and implicit logical constraints beyond local similarity. Existing reward modeling approaches have clear limitations. Discriminative reward models align well with human preferences but struggle with complex semantics due to limited reasoning supervision. Generative reward models offer stronger semantic understanding and reasoning, but they are costly at inference time and difficult to align directly with human preferences. To this end, we propose Joint Reward Modeling (JRM), which jointly optimizes preference learning and language modeling on a shared vision-language backbone. This approach internalizes the semantic and reasoning capabilities of generative models into efficient discriminative representations, enabling fast and accurate evaluation. JRM achieves state-of-the-art results on MMRB2 and EditReward-Bench, and significantly improves stability and performance in downstream online reinforcement learning. These results show that joint training effectively bridges efficiency and semantic understanding in reward modeling.
연구 동기 및 목표
- 로컬 유사성 너머의 복잡한 이미지 편집 의미를 다루는 보상 모델의 동기 부여.
- 효율적인 구분 보상과 의미적으로 풍부한 생성적 추론 사이의 간극을 좁힌다.
- 훈련 중 잠재 표현에서 추론을 내부화하여 빠르고 안정적인 보상 평가를 가능하게 한다.
- 추론 경로의 언어 생성 경로를 테스트 시 제거하여 구별적 추론 효율성을 보존한다.
제안 방법
- 공유 시각-언어 백본에 두 개의 헤드를 두는 구성: 구별 보상 헤드와 조건부 언어 헤드.
- 선호에 대한 랭킹 손실과 언어 모델링에 대한 교차 엔트로피 손실을 결합한 공동 목표로 학습(L_total = (1-α)L_rank + αL_LM).
- rewards를 가우시안으로 가정하고 불확실성 인식 랭킹 손실(P(x_i ≻ x_j|c))를 사용하여 보상 불확실성을 모델링한다.
- 공유 표현이 랭킹과 언어 생성을 지원하도록 강제하여 추론 시 구별 헤드에서 Latent CoT를 가능하게 함으로써 잠재적 체인 오브 생각을 내재화한다.
- 추론 중에는 언어 생성 경로를 제거하고 구별 보상 점수에 의존하여 빠른 평가를 수행한다.
실험 결과
연구 질문
- RQ1언어 감독과의 공동 학습을 통해 인퍼런스 시 명시적 텍스트 생성 없이도 구별 보상 모델이 고급 의미 이해와 추론을 획득할 수 있는가?
- RQ2잠재 표현에서 체인 오브 생각을 내재화하는 것이 이미지 편집과 같은 복합 멀티모달 작업에서 보상 평가를 개선하면서 효율성을 보존하는가?
- RQ3공동 학습이 표현 다양성과 안정성에 미치는 영향은 순수하게 구별적인 학습에 비해 어떤가?
- RQ4JRM이 이미지 편집에 대한 다운스트림 온라인 강화 학습에서 보상 신호로 효과적인가?
- RQ5언어 감독 가중치가 성능 및 학습 역학에 미치는 영향은 무엇인가?
주요 결과
| Method | PF | Cons. | Overall |
|---|---|---|---|
| GPT-4.1 | 0.673 | 0.602 | 0.705 |
| GPT-5 | 0.777 | 0.669 | 0.755 |
| Gemini-2.5-Pro | 0.703 | 0.560 | 0.722 |
| EditScore-8B | 0.608 | 0.594 | 0.690 |
| EditScore-72B | 0.638 | 0.586 | 0.703 |
| PaCo-Reward-7B | 0.777 | 0.709 | 0.751 |
| Gemini-3.0-Flash | 0.717 | 0.662 | 0.769 |
| EditReward | 0.832 | - | 0.792 |
| JRM (Ours) | 0.854 | - | 0.851 |
- JRM은 EditReward-Bench에서 전체 정확도 85.1%로 최첨단을 달성(프롬프트 추종 85.4% 포함)했고 이전 방법들을 능가한다.
- MMRB2에서 JRM은 69.3% 전체로 도달하여 이전 최고치를 7.4% 초과했다.
- JRM은 효과적 기능 공간 순위를 91.77로 확대하여 기준선의 46.86 대비 표현 수렴 감소를 시사한다.
- 온라인 RL(Flow-GRPO)에서 JRM 가이드 모델은 베이스라인 대비 GEdit-Bench 및 ImageEdit-Bench에서 상당한 이득(+1.00, +0.50)을 보인다.
- Latent CoT: 공동 학습은 추론 시 텍스트 없이도 richer semantic factors를 지지하는 고차원적이고 등방성인 표현을 만들어낸다.
- 자기 수정 실험에서 JRM 가이드 언어 피드백이 의미론적 일관성과 다운스트림 편집 보상을 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.