QUICK REVIEW

[논문 리뷰] Entropy-Guided Data-Efficient Training for Multimodal Reasoning Reward Models

Shidong Yang, Tongwen Huang|arXiv (Cornell University)|2026. 02. 02.

Topic Modeling인용 수 0

한 줄 요약

이 논문은 응답 엔트로피를 이용해 데이터 큐레이션과 쉬운 샘플에서 어려운 예제로의 학습 스케줄링을 수행하는 엔트로피-가이드 데이터 효율적 학습 프레임워크 EGT를 도입하여 데이터 필요성을 줄이면서 최첨단 성능을 달성한다.

ABSTRACT

Multimodal reward models are crucial for aligning multimodal large language models with human preferences. Recent works have incorporated reasoning capabilities into these models, achieving promising results. However, training these models suffers from two critical challenges: (1) the inherent noise in preference datasets, which degrades model performance, and (2) the inefficiency of conventional training methods, which ignore the differences in sample difficulty. In this paper, we identify a strong correlation between response entropy and accuracy, indicating that entropy can serve as a reliable and unsupervised proxy for annotation noise and sample difficulty. Based on this insight, we propose a novel Entropy-Guided Training (EGT) approach for multimodal reasoning reward models, which combines two strategies: (1) entropy-guided data curation to mitigate the impact of unreliable samples, and (2) an entropy-guided training strategy that progressively introduces more complex examples. Extensive experiments across three benchmarks show that the EGT-trained model consistently outperforms state-of-the-art multimodal reward models.

연구 동기 및 목표

멀티모달 보상 모델 학습에서 샘플 난이도와 주석 노이즈의 대리 지표로 엔트로피를 식별한다.
엔트로피 기반 데이터 큐레이션과 점진적 학습 커리큘럼을 결합하는 엔트로피-가이드 학습(Entropy-Guided Training, EGT)을 제안한다.
EGT의 세 가지 멀티모달 보상 벤치마크에서 최첨단 성능을 입증한다.
엄청난 데이터 없이도 잘 작동하는 큐레이션된 하위 집합으로 강한 결과를 달성하여 데이터 효율성을 보여준다.

제안 방법

지시 학습용으로 refined SFT 데이터세트를 형성하기 위해 고품질 추론 경로를 생성한다.
답변 토큰 엔트로피와 추론 문장 엔트로피를 데이터 품질 프록시로 사용해 응답 엔트로피를 계산한다.
강화 학습 기반 학습을 위한 큐레이션 데이터로 고-엔트로피 샘플을 가지치기한다.
강한 예제를 점진적으로 다루기 위해 저-에서 고- 엔트로피 커리큘럼으로 강화 학습을 수행한다.
정확도, 논리, 형식 용어를 결합한 합성 보상 함수와 엔트로피 기반 순위를 활용한다.
세 가지 멀티모달 보상 벤치마크에서 평가하고 구성 요소를 검증하기 위한 제거 실험을 수행한다.

실험 결과

연구 질문

RQ1멀티모달 보상 데이터셋에서 샘플 난이도와 주석 노이즈의 비지도 프록시로 응답 엔트로피가 작동할 수 있는가?
RQ2엔트로피 기반 데이터 큐레이션과 커리큘럼 학습이 균일하거나 정확도 기반 방법보다 더 나은 성능과 데이터 효율성을 제공하는가?
RQ3데이터 가지치기에 있어 엔트로피 기반 선택(특히 답변 토큰 엔트로피)이 문장 엔트로피나 혼합 지표와 비교해 어떤 차이를 보이는가?
RQ4학습 데이터 규모와 엔트로피 수준이 모델 성능과 강건성에 어떤 영향을 미치는가?

주요 결과

모델	파라미터 수	# 파라미터	VL-보상	멀티모달	MM-RLHF	평균
GPT-4o (2024-08-06)	–	65.80	70.80	58.23	64.94	–
Claude-3.7-Sonnet (2025-02-24)	–	66.31	71.90	82.35	73.52	↑ 8.58
SliME [24]	7B	19.04	42.00	17.10	26.05	↓ 38.89
VITA-1.5 [5]	7B	16.48	53.60	20.58	30.22	↓ 34.72
Qwen2-VL-72B [1]	72B	39.50	70.90	48.23	52.88	↓ 12.06
MM-RLHF-Reward [26]	7B	50.15	67.10	82.00	66.42	↑ 1.48
IXC-2.5-Reward [23]	7B	65.80	66.60	71.18	67.86	↑ 2.92
R1-Reward [25]	7B	72.89	82.20	80.59	78.56	↑ 13.62
EGT (Ours)	7B	77.15	84.30	85.88	82.44	↑ 17.50

EGT가 세 가지 멀티모달 보상 벤치마크에서 최첨단 성능을 달성한다.
2,500샘플 저-엔트로피 하위 집합으로 학습해도 전체 데이터 학습과 비교해 경쟁력 있는 결과를 얻는다.
엔트로피는 데이터 난이도와 노이즈의 신뢰할 수 있는 프록시로 작동하여 효과적인 가지치기를 가능하게 한다.
엔트로피 기반 선택은 제거 실험에서 무작위 및 정확도 기반 데이터 선택 전략보다 우수하다.
가장 낮은 엔트로피 데이터가 최상의 성능을 보이며, 고-엔트로피 데이터는 학습을 악화시킬 수 있다.
저-에서 고- 엔트로피 커리큘럼은 최적화를 안정화하고 데이터 효율성을 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.