Skip to main content
QUICK REVIEW

[論文レビュー] Principled Fine-tuning of LLMs from User-Edits: A Medley of Preference, Supervision, and Reward

Dipendra Misra, Aldo Pacchiano|arXiv (Cornell University)|Jan 27, 2026
Topic Modeling被引用数 0
ひとこと要約

論文は、ユーザーの編集からのファインチューニングによりLLMsを個人化するために、好み・監督・報酬信号を統合するアプローチを提案し、 ensemble を用いた方法、理論、そしてユーザー編集フィードバックを用いた執筆・要約タスクでの検証を行う。

ABSTRACT

We study how to fine-tune LLMs using user-edit deployment data consisting of a set of context, an agent's response, and user edits. This deployment data is naturally generated by users in applications such as LLMs-based writing assistants and coding agents. The _natural_ origin of user edits makes it a desired source for adapting and personalizing LLMs. In this setup, there emerges a unification of various feedback types namely preferences, supervised labels, and cost that are typically studied separately in the literature. In this paper, we initiate the theoretical investigation of learning from user edits. We first derive bounds for learning algorithms that learn from each of these feedback types. We prove that these algorithms have different trade-offs depending upon the user, data distribution, and model class. We then propose a simple ensembling procedure to jointly learn from these feedback types. On two domains adapted from Gao et al. 2024, we show our ensembling procedure outperforms these methods that learn from individual feedback. Further, we show that our proposed procedure can robustly adapt to different user-edit distributions at test time.

研究の動機と目的

  • 自然な展開編集からの学習を動機づけ、ユーザー固有のニーズに合わせてLLMsをパーソナライズする。
  • 三つのフィードバックタイプ: edits、preferences、costs からの学習に対する理論的境界を構築する。
  • オフラインとオンラインの学習を組み合わせてトレードオフをバランスするエンセムリングフレームワークを提案する。
  • ドメイン適応タスクで提案手法を評価し、テスト時のユーザー分布に対するロバスト性を分析する。

提案手法

  • モデル化されたユーザー編集を、文脈 x、元の応答 y、編集後の応答 y'、および編集コスト c を含むフィードバック機構として扱う。
  • 三つのオフライン学習バリアントを形式化する: edits での教師ありファインチューニング、Direct Preference Optimization (DPO) を用いた preferences からの学習、報酬学習のためのコストモデルからの学習。
  • 三つのフィードバック源からの損失を早期エンセミリングとして統合する。
  • オンライン動作時に複数の学習方針の中から選択するための Late-ensembling 戦略(UCB-based bandit)を提案する。
  • ユーザー挙動とポリシー実現可能性の仮定の下での理論的境界と収束特性を論じる。

実験結果

リサーチクエスチョン

  • RQ1ユーザー編集からの学習をファインチューニングする際、 edits、preferences、costs の三つのフィードバックタイプからの学習をどのように境界付け、バランスさせることができるか。
  • RQ2オフラインで学習したポリシーをエンセムリングすることで、さまざまなユーザー編集分布に対してオンラインパフォーマンスが改善されるか。
  • RQ3コスト関数の学習と RL による最適化が、 edits からの模倣学習や好み学習よりもサンプル効率が良くなる条件は何か。
  • RQ4オフラインデプロイデータとオンライン試験時の分布シフトに対して、提案手法のロバスト性はどれくらいか。

主な発見

  • edits・preferences・costs の各オフライン学習手法は、サンプル効率とロバスト性の点でそれぞれ異なるトレードオフを持つ。
  • 早期エンセミリングは、異なるフィードバック信号からの損失を同時に最適化することで性能を向上させうる。
  • 遅延エンセミリング(bandit)戦略は、オンライン相互作用中に学習済みポリシーの中からの選択を効果的に行い、テスト時のユーザー分布への適応性を改善する。
  • メール作成と要約の実験では、アンサンブル手法が単一のフィードバックタイプに依存する方法よりも優れていることを示した(報告された実験設定内で)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。