Skip to main content
QUICK REVIEW

[論文レビュー] NEFTune: Noisy Embeddings Improve Instruction Finetuning

Neel Jain, Ping-yeh Chiang|arXiv (Cornell University)|Oct 9, 2023
Natural Language Processing Techniques被引用数 12
ひとこと要約

NEFTuneは指示のファインチューニング中に埋め込みへランダムノイズを追加し、追加の計算資源やデータなしで、複数のモデルとデータセットにおいて対話品質を大幅に向上させます。

ABSTRACT

We show that language model finetuning can be improved, sometimes dramatically, with a simple augmentation. NEFTune adds noise to the embedding vectors during training. Standard finetuning of LLaMA-2-7B using Alpaca achieves 29.79% on AlpacaEval, which rises to 64.69% using noisy embeddings. NEFTune also improves over strong baselines on modern instruction datasets. Models trained with Evol-Instruct see a 10% improvement, with ShareGPT an 8% improvement, and with OpenPlatypus an 8% improvement. Even powerful models further refined with RLHF such as LLaMA-2-Chat benefit from additional training with NEFTune.

研究の動機と目的

  • Limited fine-tuning dataで訓練されたLLMの指示遵守を改善する動機づけ。
  • ファインチューニング中の単純な埋め込み空間ノイズ拡張(NEFTune)の提案。
  • 複数データセットとモデルサイズでのNEFTuneの影響を評価。
  • NEFTuneがRLHFチューニング済みおよびリソース制約下での設定に一般化するかを評価。

提案手法

  • ファインチューニング中に指示トークンをサンプルし、埋め込みに変換する。
  • 埋め込みにランダムノイズベクトルを追加し、α/√(Ld)でスケーリングする(Lは系列長、dは埋め込み次元)。
  • ノイズ付きの埋め込み前方パスでモデルを標準の最適化を用いて訓練する。
  • Alpacaスタイルのシステムプロンプトと複数の指示データセットを用いてファインチューニング。
  • AlpacaEvalとOpenLLM Leaderboardタスクを用いて対話品質と事実能力を評価。
  • 量子化低ランクアダプタ(QLORA)との互換性を実証。

実験結果

リサーチクエスチョン

  • RQ1ファインチューニング中に埋め込みへノイズを注入することで指示遵守性能が向上するか?
  • RQ2NEFTuneは異なるモデルサイズとデータセットで対話品質にどう影響するか?
  • RQ3NEFTuneは標準ベンチマークで測定される事実知識・推論などの非対話的能力を保持するか?
  • RQ4QLORAのようなリソース制約下のファインチューニング手法とともにNEFTuneは有効か?

主な発見

モデルデータセットBaseline AlpacaEval Win Rate (%)NEFTune AlpacaEval Win Rate (%)
LLaMA-2Alpaca29.7964.69
LLaMA-2Evol-Instruct70.3479.60
LLaMA-2ShareGPT68.7476.28
LLaMA-2OpenPlatypus62.0070.61
Average57.7172.80
  • NEFTuneはLLaMA-2-7BのAlpacaEvalウィン率を29.79%から64.69%に向上させる。
  • NEFTuneはEvol-Instruct、ShareGPT、OpenPlatypusデータセットで改善をもたらす(例:70.34%→79.60%、68.74%→76.28%、62.00%→70.61%)。
  • 評価データセット全体の平均AlpacaEvalウィン率は57.71%から72.80%へ改善。
  • LLaMA-2-Chat (7B)はNEFTune後に追加で約3–10%の利得を得る、 prior RLHF refinementsがあっても。
  • NEFTuneはQLORAと互換性を保ち、モデルサイズ間で改善を示すが、完全ファインチューニングより利得は穏やか。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。