[논문 리뷰] When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On
본 논문은 Implicit Error Counting (IEC)을 가상 착용(VTO)에서 참조-free RL 후-training의 안정적인 보상 신호로 제안하고, MDressBench와 표준 VTO 벤치마크에서 룹릭 기반 및 직접 보상보다 우수하게 동작한다.
Reinforcement learning with verifiable rewards (RLVR) and Rubrics as Rewards (RaR) have driven strong gains in domains with clear correctness signals and even in subjective domains by synthesizing evaluation criteria from ideal reference answers. But many real-world tasks admit multiple valid outputs and lack the single ideal answer that rubric generation depends on. We identify this reference-free setting as a gap in current post-training methods and propose Implicit Error Counting (IEC) to fill it. Instead of checking what a response gets right against a rubric, IEC enumerates what it gets wrong, applying severity-weighted scores across task-relevant axes and converting them into calibrated per-aspect rewards. We show that naïve explicit enumeration is too noisy for stable optimization, and that two design choices: implicit score emission and group calibration are necessary to make error counting a reliable reward. As a case study, we validate IEC on virtual try-on (VTO), a domain that is simultaneously too constrained for holistic scoring and too permissive for rubric-based evaluation: subtle garment errors are unacceptable, yet many output variations are correct. We introduce Cascaded Error Counting (CEC) as an evaluation metric, which tracks human preferences well (60% top-1 vs. 30% others), and curate Mismatch-DressCode (MDressBench), a benchmark with maximal attribute mismatch to stress-test reward designs. On MDressBench, IEC outperforms RaR across all metrics (CEC: 5.31 vs. 5.60 on flat references; 5.20 vs. 5.53 on non-flat). On VITON-HD and DressCode, IEC matches or surpasses six baselines on 6 of 8 perceptual metrics. These results suggest that when ideal answers are unavailable, counting errors provide a stronger signal than constructing rubrics.
연구 동기 및 목표
- Rubrics as Rewards (RaR)가 참조-free 도메인에서 이상적인 출력이 존재하지 않는 한계가 있음을 식별한다.
- 성공이 아닌 오차를 계산하는 안정적인 보상으로 Implicit Error Counting (IEC)을 도입한다.
- 가상 착용(VTO)에 IEC를 적용하고 MDressBench 벤치마크(평탄한 참조와 비평탄한 참조)로 스트레스 테스트한다.
- IEC가 기본선 및 이전 방법과 비교하여 더 좋거나 경쟁력 있는 지각 메트릭을 달성하면서 심판 계산을 줄임을 보여준다.
제안 방법
- RaR과 오차 계산 간의 참조-free 보상 격차를 설정한다.
- Explicit Error Counting (EEC)와 Implicit Error Counting (IEC)를 그룹화된 보정된 점수 부여 방식으로 정의한다.
- rectified-flow 백본과 GRPO 후학습을 사용하여 가상 착용(VTO) 설정에 IEC를 적용한다.
- 안정적인 평가 지표로 Cascaded Error Counting (CEC)을 도입한다.
- 보상을 스트레스 테스트하기 위해 최대 속성 불일치를 갖는 Mismatch-DressCode (MDressBench)를 만든다.
- 평탄한 참조와 비평탄한 참조, 표준 벤치마크(VITON-HD, DressCode)에서 IEC를 Direct Scoring 및 RaR과 비교한다.

실험 결과
연구 질문
- RQ1오차 계산이 참조-free 도메인에서 루브릭 기반 평가보다 더 안정적이고 정보성이 높은 보상 신호를 제공할 수 있는가?
- RQ2암시적 점수 매기기와 그룹 보정이 분산을 완화하고 VTO에서 RL 후학습 성능을 향상시키는가?
- RQ3MDressBench 및 표준 VTO 벤치마크에서 IEC가 Direct Scoring 및 RaR 대비 어떤 성능을 보이는가?
- RQ4Cascaded Error Counting (CEC)가 VTO 출력에 대한 인간 선호와 일치하는 신뢰할 수 있는 지표인가?
주요 결과
- IEC는 MDressBench의 평탄한 참조와 비평탄한 참조 모두에서 8개 지표 전 부문에서 RaR을 능가한다.
- IEC는 CEC에서 RaR 대비 상대적 개선 5.96%, 비평탄한 참조에서 의류 이식, 속성 보존, 리얼리즘, 조명, 원천 무결성에서 이득을 보인다.
- 평탄한 참조에서 IEC가 CEC 5.31로 RaR의 5.60보다 우수하다.
- IEC는 VITON-HD 및 DressCode의 8개 지표 중 6개에서 6개 벤치마크와 동등하거나 앞서는 성능을 보인다.
- 아블레이션 결과 EEC가 IEC보다 저성능이며, 그룹 보정이 IEC에 일관된 이득을 제공한다.
- IEC는 RaR의 심판 계산의 대략 절반(후보당 심판 한 번 호출 대 두 번) 정도를 필요로 한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.