Skip to main content
QUICK REVIEW

[論文レビュー] When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu|arXiv (Cornell University)|Mar 5, 2026
Emotion and Mood Recognition被引用数 0
ひとこと要約

論文は参照なしRLポストトレーニングにおける安定した報酬信号としてImplicit Error Counting (IEC) を提案し、MDressBenchと標準VTOベンチマークでルーブリックベースおよび直接報酬を上回る。

ABSTRACT

Reinforcement learning with verifiable rewards (RLVR) and Rubrics as Rewards (RaR) have driven strong gains in domains with clear correctness signals and even in subjective domains by synthesizing evaluation criteria from ideal reference answers. But many real-world tasks admit multiple valid outputs and lack the single ideal answer that rubric generation depends on. We identify this reference-free setting as a gap in current post-training methods and propose Implicit Error Counting (IEC) to fill it. Instead of checking what a response gets right against a rubric, IEC enumerates what it gets wrong, applying severity-weighted scores across task-relevant axes and converting them into calibrated per-aspect rewards. We show that naïve explicit enumeration is too noisy for stable optimization, and that two design choices: implicit score emission and group calibration are necessary to make error counting a reliable reward. As a case study, we validate IEC on virtual try-on (VTO), a domain that is simultaneously too constrained for holistic scoring and too permissive for rubric-based evaluation: subtle garment errors are unacceptable, yet many output variations are correct. We introduce Cascaded Error Counting (CEC) as an evaluation metric, which tracks human preferences well (60% top-1 vs. 30% others), and curate Mismatch-DressCode (MDressBench), a benchmark with maximal attribute mismatch to stress-test reward designs. On MDressBench, IEC outperforms RaR across all metrics (CEC: 5.31 vs. 5.60 on flat references; 5.20 vs. 5.53 on non-flat). On VITON-HD and DressCode, IEC matches or surpasses six baselines on 6 of 8 perceptual metrics. These results suggest that when ideal answers are unavailable, counting errors provide a stronger signal than constructing rubrics.

研究の動機と目的

  • Rubrics as Rewards (RaR) の参照なしドメインにおける制限を特定する。
  • エラーを数えることで安定した報酬としてImplicit Error Counting (IEC) を導入する。
  • 仮想試着(VTO)でIECを実証し、MDressBenchベンチマーク(フラット参照と非フラット参照)でストレステストを行う。
  • IECがベースラインおよび既存手法と比較して知覚的指標でより良いまたは競合的であり、審査者計算量を削減することを示す。

提案手法

  • RaRとエラーカウント間の参照なし報酬ギャップを定式化する。
  • Explicit Error Counting (EEC) と Implicit Error Counting (IEC) をグループ化された校正スコアリング方式で定義する。
  • rectified-flow バックボーンと GRPO 後処理を用いたVTO設定へIECを適用する。
  • 安定な評価指標として Cascaded Error Counting (CEC) を導入する。
  • 最大属性ミスマッチを持つMismatch-DressCode (MDressBench) を作成し報酬をストレステストする。
  • フラット参照と非フラット参照、及び標準ベンチマーク(VITON-HD、DressCode)を横断してIECをDirect Scoringおよび RaRと比較する。
Figure 2 : Training dynamics for four reward designs during GRPO post-training. Left 2 $\times$ 2 : Per-method curves showing raw rewards (faded) and EMA (solid, $\alpha=0.99$ ). Right : Normalized EMA showing relative improvement. IEC achieves smooth, monotonic improvement. Direct and RaR show high
Figure 2 : Training dynamics for four reward designs during GRPO post-training. Left 2 $\times$ 2 : Per-method curves showing raw rewards (faded) and EMA (solid, $\alpha=0.99$ ). Right : Normalized EMA showing relative improvement. IEC achieves smooth, monotonic improvement. Direct and RaR show high

実験結果

リサーチクエスチョン

  • RQ1エラーカウントは参照なしドメインにおいてルーブリック評価よりも安定かつ有益な報酬信号を提供できるか。
  • RQ2暗黙的スコアリングとグループ校正は分散を抑え、VTOのRLポストトレーニング性能を改善するか。
  • RQ3MDressBenchと標準VTOベンチマークでIECはDirect ScoringおよびRaRとどのように比較されるか。
  • RQ4CECはVTO出力に対する人間の嗜好と一致する信頼できる指標か。

主な発見

MethodCEC ↓RaR ↑Direct ↑Garm.Trans. ↑Attr.Pres. ↑Realism ↑Light. ↑Src.Int. ↑
Baseline (SFT)6.018 ± 1.730.760 ±0.140.796 ±0.060.793 ±0.160.815 ±0.130.735 ±0.120.760 ±0.100.914 ±0.08
Direct5.373 ±1.570.854 ±0.110.840 ±0.040.864 ±0.090.873 ±0.080.785 ±0.080.771 ±0.090.925 ±0.07
RaR (gunjal2025rubrics)5.596 ±1.690.826 ±0.140.833 ±0.050.858 ±0.090.858 ±0.090.771 ±0.090.764 ±0.100.929 ±0.06
IEC (Ours)5.312 ±1.720.875 ±0.090.854 ±0.040.873 ±0.080.886 ±0.070.803 ±0.070.794 ±0.070.933 ±0.06
  • IECはMDressBenchのフラットおよび非フラット参照の全8指標でRaRを上回る。
  • IECは非フラット参照でCECでRaRより5.96%の相対改善を示し、ガーメント転送、属性保持、リアリズム、ライティング、ソース整合性の各指標で改善を示す。
  • フラット参照ではIECはCEC 5.31対 RaRの 5.60 を達成。
  • IECはVITON-HDおよびDressCodeの8つの知覚指標のうち6指標でベースラインの6つを上回るか同等。
  • アブレーションではEECはIECを下回り、グループ校正はIECに一貫した利得を与えることを示す。
  • IECはRaRより審査者計算量を概ね半分(候補ごとに1回の審査呼び出し vs 2回)で済ませる。
Figure 3 : MDressBench Examples. Flat references ( left ) show the garment as a lay-flat product image on a neutral background. Non-flat references ( right ) show the garment worn by a model, requiring the model to “extract” the garment from arbitrary poses and backgrounds.
Figure 3 : MDressBench Examples. Flat references ( left ) show the garment as a lay-flat product image on a neutral background. Non-flat references ( right ) show the garment worn by a model, requiring the model to “extract” the garment from arbitrary poses and backgrounds.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。