Skip to main content
QUICK REVIEW

[論文レビュー] One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment

Hongru Cai, Yongqi Li|arXiv (Cornell University)|Jan 26, 2026
Recommender Systems and Techniques被引用数 0
ひとこと要約

要約:本論文は個別報酬モデリングをメタ学習問題として再定式化し、基底報酬関数上の適応可能な初期化を学習することで、未見のユーザーに対する高速で頑健なfew-shotパーソナライズを可能にする。

ABSTRACT

Alignment of Large Language Models (LLMs) aims to align outputs with human preferences, and personalized alignment further adapts models to individual users. This relies on personalized reward models that capture user-specific preferences and automatically provide individualized feedback. However, developing these models faces two critical challenges: the scarcity of feedback from individual users and the need for efficient adaptation to unseen users. We argue that addressing these constraints requires a paradigm shift from fitting data to learn user preferences to learn the process of preference adaptation. To realize this, we propose Meta Reward Modeling (MRM), which reformulates personalized reward modeling as a meta-learning problem. Specifically, we represent each user's reward model as a weighted combination of base reward functions, and optimize the initialization of these weights using a Model-Agnostic Meta-Learning (MAML)-style framework to support fast adaptation under limited feedback. To ensure robustness, we introduce the Robust Personalization Objective (RPO), which places greater emphasis on hard-to-learn users during meta optimization. Extensive experiments on personalized preference datasets validate that MRM enhances few-shot personalization, improves user robustness, and consistently outperforms baselines.

研究の動機と目的

  • LLMsにおける多様なユーザーペルソナに対する個別最適化を動機づける。
  • ユーザーごとのフィードバックの不足と見知らぬユーザーへの適応に対処する。
  • ユーザー報酬の迅速な適応プロセスを学習するメタ学習定式化を提案する。
  • 難学習ユーザーの性能を高める頑健なパーソナライゼーション目的を導入する。

提案手法

  • 各ユーザーの報酬を基底報酬関数の加重結合として表現する: r_wi(x,y)=sum_k w_i,k * phi_k(x,y).
  • 速い各ユーザー適応のために共有初期化 w0 を学習する MAML風の二層最適化を用いる。
  • 内側ループ:希少サポートデータから w0 を用いてユーザー固有の重み wi を適応させる。
  • 外側ループ:学習困難なユーザーを強調する頑健なパーソナライゼーション目的を用いて w0 と基底関数 phi_k を更新する。
  • 頑健なパーソナライゼーション目的:分位数ベースのフィルタとソフトスムージング関数で各ユーザー損失を再重み付けし、難ケースに焦点を当てつつ訓練を安定化させる。

実験結果

リサーチクエスチョン

  • RQ1Meta Reward Modeling (MRM) はfew-shotパーソナライゼーションでベースラインを上回るか。
  • RQ2MRM は既存手法と比較して多様なユーザーに対してどれだけ頑健か。
  • RQ3性能に対する各成分(メタ初期化、基底関数、頑健目的)の寄与はどれほどか。
  • RQ4少数ショットデータの度合いが異なる状況でMRMは未知のユーザーへどれだけ適応できるか。
  • RQ5ユーザー数が増加した場合のMRMのスケーラビリティと効率性はどうか。

主な発見

MethodPRISM SeenPRISM UnseenPRISM OverallReddit TLDR (100 examples) SeenReddit TLDR (100 examples) UnseenReddit TLDR (100 examples) OverallReddit TLDR (150 examples) SeenReddit TLDR (150 examples) UnseenReddit TLDR (150 examples) Overall
MRM (Skywork-Reward V1)64.8 ± 0.464.9 ± 0.464.9 ± 0.268.7 ± 1.169.0 ± 0.868.8 ± 0.469.0 ± 1.169.5 ± 0.869.3 ± 0.3
MRM (Skywork-Reward V2)65.3 ± 0.6*65.2 ± 0.5*65.3 ± 0.3*69.6 ± 0.9*69.6 ± 0.8*69.6 ± 0.3*69.7 ± 0.8*69.8 ± 0.9*69.7 ± 0.3*
  • MRM は seen・unseen の両方の設定で複数のデータセットにおいて一貫してベースラインを上回る。
  • MRM は非個別化やいくつかの個別化ベースラインよりユーザーレベルの精度が高く、特に few-shot 環境で顕著。
  • 基底報酬関数上のメタ学習初期化を用いることで、限られたフィードバックで迅速な適応を実現。
  • 頑健なパーソナライゼーション目的はメタ最適化中に難しい学習者を強調することで頑健性を向上させる。
  • Reddit TLDR データセットでは、100例および150例の few-shot 設定の両方で顕著な利得を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。