[論文レビュー] FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment
FedPDPOは、LoRAベースのパラメータ効率的微調整、クライアント固有の明示的報酬ヘッド、およびボトルネックアダプタを用いた個別化された連合ディレクト Preference Optimizationフレームワークを提供し、非IIDデータ下でLLMsを人間の嗜好に一致させることを目指す。これにより、域内および域間の連合設定で最先端の性能を達成する。
Aligning large language models (LLMs) with human preferences in federated learning (FL) is challenging due to decentralized, privacy-sensitive, and highly non-IID preference data. Direct Preference Optimization (DPO) offers an efficient alternative to reinforcement learning with human feedback (RLHF), but its direct application in FL suffers from severe performance degradation under non-IID data and limited generalization of implicit rewards. To bridge this gap, we propose FedPDPO (Federated Personalized Direct Preference Optimization), a personalized federated framework for preference alignment of LLMs. It adopts a parameter-efficient fine-tuning architecture where each client maintains a frozen pretrained LLM backbone augmented with a Low-Rank Adaptation (LoRA) adapter, enabling communication-efficient aggregation. To address non-IID heterogeneity, we devise (1) the globally shared LoRA adapter with the personalized client-specific LLM head. Moreover, we introduce (2) a personalized DPO training strategy with a client-specific explicit reward head to complement implicit rewards and further alleviate non-IID heterogeneity, and (3) a bottleneck adapter to balance global and local features. We provide theoretical analysis establishing the probabilistic foundation and soundness. Extensive experiments on multiple preference datasets demonstrate state-of-the-art performance, achieving up to 4.80% average accuracy improvements in federated intra-domain and cross-domain settings.
研究の動機と目的
- フェデレーテッド設定での人間の嗜好とLLMsのプライバシー保護による整合を目的とする。
- 通信効率を維持しつつ非IIDデータのヘテロジニティを緩和する。
- 個別化された明示的報酬を通じてDPOの暗黙的報酬の一般化を向上させる。
- グローバルな共有知識とローカルなクライアント固有適応をバランスさせる。
- ドメイン設定を横断した理論的根拠と実証的検証を提供する。
提案手法
- グローバルに共有されたLoRAアダプタを用いた凍結済み事前学習済みLLMのバックボーンを通信効率的な集約のために使用。
- 各クライアントモデルを共有LoRA適用バックボーンと個別クライアント特有のLLMヘッドに分解。
- DPO(PDPO)の暗黙的報酬を補完するクライアント固有の明示的報酬ヘッドを導入。
- タスクヘッド前でグローバルとローカル特徴を統合・バランスさせるボトルネックアダプタを組み込む。
- 交互最適化戦略を採用:LoRAを凍結したまま個別ヘッドとボトルネックを更新し、次にLoRAアダプタを更新。
- Delta = Delta_ir + w_r * s * Delta_erとして、暗黙的DPOマージンと明示的報酬マージンを適応的にスケーリングしてPDPO目的を定式化。
実験結果
リサーチクエスチョン
- RQ1フェデレーテッド学習をどのように活用してプライバシーを保護しつつ非IIDデータを扱いながらLLMsを人間の嗜好に整合させることができるか?
- RQ2 personalized DPOフレームワークはFLにおける暗黙的報酬の一般化とロバスト性を改善できるか?
- RQ3LoRAアダプタを共有しつつLLMヘッドを個別化することは非IID効果を緩和しつつ性能を損なわないか?
- RQ4明示的なクライアント固有報酬信号は暗黙DPO報酬を補強してドメイン間の整合性を改善できるか?
- RQ5グローバル-ローカル特徴の融合が連合LLM整合における共有情報と局所情報のバランスに与える影響は何か?
主な発見
- FedPDPOは域内設定で強力なベースラインに対して平均精度を最大4.80ポイント改善する。
- 域間設定ではFedPDPOが平均精度73.44%(Table 2のTinyLlama-1.1Bを使用)を達成し、ベースラインを上回る。平均で2.83ポイントの改善。
- DPOベースの手法は、域内および域間のFLシナリオの両方でPPOベースの counterparts より一般的に優れている。
- アブレーション実験では明示的報酬ヘッドの重要性が顕著で、除去すると精度が著しく低下し、ボトルネックアダプタは特徴融合に有益である。
- 複数データセット(IMDBとCode-Vulnerability-Security)および分割において、FedPDPOは非IID条件下でより速い収束とより強いロバスト性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。