Skip to main content
QUICK REVIEW

[論文レビュー] Zephyr: Direct Distillation of LM Alignment

Lewis Tunstall, Edward Beeching|arXiv (Cornell University)|Oct 25, 2023
Topic Modeling被引用数 53
ひとこと要約

Zephyr-7Bは、蒸留付き監視微調整(dSFT)と蒸留型直接好み最適化(dDPO)をAIフィードバックから用いて、小規模なオープンLMを整合させ、7B規模のチャット性能で最新を達成し、人間の注釈を用いずに、はるかに大きなモデルと競合する結果を示す。

ABSTRACT

We aim to produce a smaller language model that is aligned to user intent. Previous research has shown that applying distilled supervised fine-tuning (dSFT) on larger models significantly improves task accuracy; however, these models are unaligned, i.e. they do not respond well to natural prompts. To distill this property, we experiment with the use of preference data from AI Feedback (AIF). Starting from a dataset of outputs ranked by a teacher model, we apply distilled direct preference optimization (dDPO) to learn a chat model with significantly improved intent alignment. The approach requires only a few hours of training without any additional sampling during fine-tuning. The final result, Zephyr-7B, sets the state-of-the-art on chat benchmarks for 7B parameter models, and requires no human annotation. In particular, results on MT-Bench show that Zephyr-7B surpasses Llama2-Chat-70B, the best open-access RLHF-based model. Code, models, data, and tutorials for the system are available at https://github.com/huggingface/alignment-handbook.

研究の動機と目的

  • ユーザーの意図に整合した小型言語モデルの作成を目的とする。
  • より大きなティーチャーからの蒸留とAI生成の好みによって高い整合性に到達できることを示す。
  • dDPOが7B基盤で主要ベンチマークで70Bパラメータのチャットモデルに匹敵するか超えることを示す。
  • 人間のラベリングなしでの整合のための公開データセット、コード、および再現可能なトレーニングレシピを提供する。

提案手法

  • 自己指示スタイルのデータ(UltraChat)を構築し、7Bベースで蒸留SFT(dSFT)を適用する。
  • 教師の完了をアンサンブルしてGPT-4スコアリング(UltraFeedback)を用い、AIフィードバック(AIF)を収集して好みデータを生成する。
  • 現在のポリシーと参照ポリシーから導出される報酬モデルを用いて蒸留型直接好み最適化(dDPO)を適用する。
  • 16台のA100、80GBメモリでトレーニングし、TRL、DeepSpeed ZeRO-3、FlashAttention-2を使用する。
  • 1エポックのdSFTモデルからZephyr-7Bを初期化し、3エポックのDPOでファインチューンする。

実験結果

リサーチクエスチョン

  • RQ1人間の注釈なしで蒸留によって小さなオープンLMをユーザーの意図に整合させることは可能か?
  • RQ2AI生成の好みに対する蒸留型直接好み最適化(dDPO)は、人間と整合した大規模モデルと競合する整合性を達成できるか?
  • RQ37Bモデルの標準的なチャットベンチマークにおいて、dSFTとdDPOを組み合わせる影響はどのようか?
  • RQ4MT-Bench、AlpacaEval、およびOpen LLM Leaderboardのタスクにおいて、Zephyr-7Bはオープンモデルと独自モデルをどう比較するか?

主な発見

  • Zephyr-7Bは MT-Bench(7.34)でオープン7Bチャットモデルの新しいSOTAを達成し、AlpacaEvalでは多くのオープン/オープン対比モデルを上回る(勝率90.60%)。
  • より大規模なオープンモデルと比較して、Zephyr-7BはMT-BenchでLlama2-Chat-70Bと競合し、AlpacaEvalでは2標準偏差以内。
  • dDPOはdSFT単独よりもチャット能力を大幅に向上させ、アブレーションではdDPO+dSFTがMT-BenchとAlpacaEvalの両方で最良の全体性能を示す。
  • 初期dSFT後の1エポックのDPOは有益である。一方、長い初期SFTの後に長くDPOを延期すると下流の性能が低下する可能性があり、整合段階の慎重なスケジューリングを示唆する。
  • Zephyr-7Bは一部ベンチマークで商用モデルとの差を縮め、MT-BenchではLlama2-Chat-70Bを上回ることもあり、オープンソースのままである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。