[논문 리뷰] One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment
이 논문은 개인화 보상 모델링을 메타 학습 문제로 재구성하여, 기본 보상 함수들 위에 적응 가능한 초기화(init)를 학습하고, 보이지 않는 사용자에 대해 적은 피드백으로 빠르고 견고한 소-shot 개인화를 가능하게 한다.
Alignment of Large Language Models (LLMs) aims to align outputs with human preferences, and personalized alignment further adapts models to individual users. This relies on personalized reward models that capture user-specific preferences and automatically provide individualized feedback. However, developing these models faces two critical challenges: the scarcity of feedback from individual users and the need for efficient adaptation to unseen users. We argue that addressing these constraints requires a paradigm shift from fitting data to learn user preferences to learn the process of preference adaptation. To realize this, we propose Meta Reward Modeling (MRM), which reformulates personalized reward modeling as a meta-learning problem. Specifically, we represent each user's reward model as a weighted combination of base reward functions, and optimize the initialization of these weights using a Model-Agnostic Meta-Learning (MAML)-style framework to support fast adaptation under limited feedback. To ensure robustness, we introduce the Robust Personalization Objective (RPO), which places greater emphasis on hard-to-learn users during meta optimization. Extensive experiments on personalized preference datasets validate that MRM enhances few-shot personalization, improves user robustness, and consistently outperforms baselines.
연구 동기 및 목표
- 다양한 사용자 선호를 가진 LLM의 개인화 정렬을 동기화한다.
- 사용자별 피드백의 부족과 보지 않은 사용자에 대한 적응 문제를 다룬다.
- 사용자 보상에 대한 빠른 적응 프로세스를 학습하기 위한 메타 학습 형식을 제안한다.
- 학습이 어려운 사용자에서 성능을 향상시키기 위한 Robust Personalization Objective를 도입한다.
제안 방법
- 각 사용자의 보상을 기본 보상 함수의 가중합으로 표현: r_wi(x,y)=sum_k w_i,k * phi_k(x,y).
- 빠른 per-user 적응을 위한 공유 초기화 w0를 학습하는 MAML 스타일의 이중 최적화 사용.
- Inner loop: 희소 샘플 데이터를 사용하여 wi를 w0에서 적응시킨다.
- Outer loop: 학습을 안정적으로 유지하면서 어려운 학습 사례에 중점을 두는 Robust Personalization Objective를 사용하여 w0와 phi_k를 업데이트한다.
- Robust Personalization Objective: 분위수 기반 필터와 소프트 스무딩 함수를 통해 Per-user 손실의 재가중화를 수행하여 어려운 사례에 집중하면서 학습의 안정성을 유지한다.
실험 결과
연구 질문
- RQ1메타 보상 모델링(MRM)이 소샷 개인화에서 기본 Baselines를 능가하는가?
- RQ2다양한 사용자에 대해 MRM의 강건성은 기존 방법들과 비교하여 어떤가?
- RQ3각 구성요소(메타 초기화, 기본 함수, 강건한 목표)의 성능 기여도는 무엇인가?
- RQ4적은 샷 데이터의 수준에서 보지 않은 사용자에 얼마나 잘 적응하는가?
- RQ5사용자 수 증가에 따라 MRM의 확장성 및 효율성은 어떠한가?
주요 결과
| 방법 | PRISM Seen | PRISM Unseen | PRISM Overall | Reddit TLDR (100 examples) Seen | Reddit TLDR (100 examples) Unseen | Reddit TLDR (100 examples) Overall | Reddit TLDR (150 examples) Seen | Reddit TLDR (150 examples) Unseen | Reddit TLDR (150 examples) Overall |
|---|---|---|---|---|---|---|---|---|---|
| MRM (Skywork-Reward V1) | 64.8 ± 0.4 | 64.9 ± 0.4 | 64.9 ± 0.2 | 68.7 ± 1.1 | 69.0 ± 0.8 | 68.8 ± 0.4 | 69.0 ± 1.1 | 69.5 ± 0.8 | 69.3 ± 0.3 |
| MRM (Skywork-Reward V2) | 65.3 ± 0.6* | 65.2 ± 0.5* | 65.3 ± 0.3* | 69.6 ± 0.9* | 69.6 ± 0.8* | 69.6 ± 0.3* | 69.7 ± 0.8* | 69.8 ± 0.9* | 69.7 ± 0.3* |
- MRM은 Seen 및 Unseen 사용자 설정에서 데이터셋 전체에 걸쳐 일관되게 Baselines를 능가한다.
- MRM은 비개인화 및 여러 개인화 Baseline보다 사용자 수준 정확도가 더 높으며, 특히 소샷 시나리오에서 두드러진다.
- 기본 보상 함수들에 대한 메타 학습 초기화를 사용하면 제한된 피드백으로도 빠르게 적응할 수 있다.
- 강건한 개인화 목표는 메타 최적화 동안 학습하기 어려운 사용자에 중점을 두어 강건성을 향상시킨다.
- Reddit TLDR 데이터셋에서 MRM은 100개 및 150개 예시의 소샷 구성에서도 주목할 만한 이점을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.