[논문 리뷰] Principled Fine-tuning of LLMs from User-Edits: A Medley of Preference, Supervision, and Reward
이 논문은 사용자 편집으로부터 LLM을 미세 조정하는 방법을 조사하고, 선호도, 감독, 보상 신호를 통합하며, 앙상블 접근법을 제안하고, 이론을 제공하며, 사용자 편집 피드백이 있는 글쓰기 및 요약 작업에서 검증한다.
We study how to fine-tune LLMs using user-edit deployment data consisting of a set of context, an agent's response, and user edits. This deployment data is naturally generated by users in applications such as LLMs-based writing assistants and coding agents. The _natural_ origin of user edits makes it a desired source for adapting and personalizing LLMs. In this setup, there emerges a unification of various feedback types namely preferences, supervised labels, and cost that are typically studied separately in the literature. In this paper, we initiate the theoretical investigation of learning from user edits. We first derive bounds for learning algorithms that learn from each of these feedback types. We prove that these algorithms have different trade-offs depending upon the user, data distribution, and model class. We then propose a simple ensembling procedure to jointly learn from these feedback types. On two domains adapted from Gao et al. 2024, we show our ensembling procedure outperforms these methods that learn from individual feedback. Further, we show that our proposed procedure can robustly adapt to different user-edit distributions at test time.
연구 동기 및 목표
- 자연스러운 배포 편집으로부터 학습을 유도하여 사용자 특화 요구에 맞게 LLM을 개인화한다.
- 편집, 선호도, 비용의 세 가지 피드백 유형으로부터의 학습에 대한 이론적 경계를 개발한다.
- 오프라인 학습과 온라인 학습을 결합하여 트레이드오프를 균형 있게 조절하는 앙상블 프레임워크를 제안한다.
- 도메인 적응 작업에서 제안된 방법을 평가하고 테스트 시점의 사용자 분포에 대한 로버스트성을 분석한다.
제안 방법
- 맥락 x, 원래 응답 y, 편집된 응답 y' plus 편집 비용 c를 포함한 피드백 메커니즘으로서 사용자 편집을 모델링한다.
- 편집에 대한 감독 미세조정, Direct Preference Optimization (DPO)를 통한 선호 학습, 보상 학습을 위한 비용 모델 학습의 세 가지 오프라인 학습 변형을 형식화한다.
- 세 가지 피드백 소스로부터의 손실을 결합하는 조기 앙상블 방식을 도입한다.
- 온라인 작동 중 다수의 학습된 정책 중에서 선택하기 위한 늦은 앙상블 전략(UCB 기반 밴딧)을 제안한다.
- 사용자 행동 및 정책 실현 가능성에 대한 가정하에 이론적 경계와 수축 특성을 논의한다.
실험 결과
연구 질문
- RQ1사용자 편집으로부터 LLM을 미세조정할 때 세 가지 피드백 유형(편집, 선호, 비용)으로부터의 학습을 어떻게 한정하고 균형 있게 할 수 있는가?
- RQ2오프라인에서 학습된 정책의 앙상블이 다양한 사용자 편집 분포에 걸쳐 더 나은 온라인 성능을 낳는가?
- RQ3비용 함수 학습과 RL로의 최적화가 편집이나 선호 학습으로부터의 모방보다 샘플 효율적일 수 있는 조건은 무엇인가?
- RQ4오프라인 배포 데이터와 온라인 테스트 간의 분포 변화에 대해 제안된 방법은 얼마나 로버스트한가?
주요 결과
- 편집, 선호, 비용에 대한 오프라인 학습 방법은 샘플 효율성과 로버스트성에서 각각 고유한 트레이드오프를 지닌다.
- 조기 앙상블 접근은 서로 다른 피드백 신호로부터의 손실을 함께 최적화하여 성능을 향상시킬 수 있다.
- 늦은 앙상블(밴딧) 전략은 온라인 상호작용 중 학습된 정책들 중에서 효과적으로 선택하여 테스트 시점의 사용자 분포에 대한 적응성을 향상시킨다.
- 이메일 작성 및 요약에 대한 실험은 어 ensemble 접근이 단일 피드백 유형에 의존하는 방법보다 성능이 우수하다는 것을 보여준다(보고된 실험 설정 내에서).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.