Skip to main content
QUICK REVIEW

[論文レビュー] Self-Alignment with Instruction Backtranslation

Xian Li, Ping Yu|arXiv (Cornell University)|Aug 11, 2023
Natural Language Processing Techniques被引用数 13
ひとこと要約

この論文は instruction backtranslation を提案する。seed model を用いて unlabeled web data から高品質な (instruction, output) ペアを生成・キュレーションする反復的自己訓練法を用い、モデル蒸留なしに指示遵守性能を高める。

ABSTRACT

We present a scalable method to build a high quality instruction following language model by automatically labelling human-written text with corresponding instructions. Our approach, named instruction backtranslation, starts with a language model finetuned on a small amount of seed data, and a given web corpus. The seed model is used to construct training examples by generating instruction prompts for web documents (self-augmentation), and then selecting high quality examples from among these candidates (self-curation). This data is then used to finetune a stronger model. Finetuning LLaMa on two iterations of our approach yields a model that outperforms all other LLaMa-based models on the Alpaca leaderboard not relying on distillation data, demonstrating highly effective self-alignment.

研究の動機と目的

  • 人手による注釈データや蒸留に過度に依存せず、スケーラブルな instruction チューニングを動機づける。
  • モデル自体によって駆動される二段階の自己訓練パイプライン(self-augmentation と self-curation)を導入する。
  • 反復的な改善を示し、ベンチマークで競争力のある instruction-following モデルを得る。
  • 指示遵守モデルを効果的にスケールさせるにはデータ品質管理が不可欠である。

提案手法

  • 小さな seed set の (instruction, output) ペアと大規模な unlabeled web コーパスで初期化する。
  • Self-augmentation: backward モデルを微調整して未ラベル出力のための候補の instruction を生成し、(instruction, output) ペアを作成する。
  • Self-curation: seed instruction model を用いて augmented ペアをスコアリングし、高品質な例を finetuning のために選択し、より強力なモデルを構築する。
  • トレーニングと推論を指示する system prompts で augmented データと seed データをタグ付けする。
  • 7B、33B、65B の LLaMA モデルを用いて実験し、複数回の augmentation 反復(self-curation の二回)を通じてデータをスケールさせる。
  • AlpacaEval(GPT-4 judgments)と人間の好みによる評価、ゼロショット NLP ベンチマークを用いて評価する。

実験結果

リサーチクエスチョン

  • RQ1外部監督なしで seed instruction-following モデルは大規模な unlabeled web コーパス から高品質な instruction データをブートストラップできるか?
  • RQ2self-curation は augmented data の品質を十分に改善し、反復的再訓練を正当化するか?
  • RQ3データ品質と量は self-aligned モデルの instruction-following 性能にどう影響するか?
  • RQ4データタグ付けと system prompts はトレーニングと推論にどのような影響を与えるか?
  • RQ5モデルサイズの拡大と非蒸留ベースラインとの比較はどのように行われ、標準ベンチマークでどうなるか?

主な発見

  • self-augmentation と self-curation のパイプライン(2 回の反復)により、Humpback というモデルが Alpaca ランキングのベンチマークで蒸留なしの LLaMA ベースモデルを上回った。
  • 高品質な augmented データでの訓練は、全 augmented データまたは seed データのみを使用する場合と比較して、instruction-following 性能を著しく向上させる。
  • データ品質の重視はデータ量を増やすだけの仮説と対照的に、より大きな利益を生む。
  • seed データと self-augmented データを適切な system prompts で結合して訓練することで、性能と安全性の両方が改善される。
  • 高品質な augmented データを用いたより大きなモデル(例:65B)へのスケーリングは、より小さなモデルよりもさらなる改善をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。