[論文レビュー] LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions
LaMini-LM は、大規模 LLM から蒸留した多様な小型の指示調整モデルを提案する(61M–7B)、2.58Mの指示データセットを用い、非常に小さなサイズで競争力のある性能を達成し、幻覚と有害性についての分析を提供する。
Large language models (LLMs) with instruction fine-tuning demonstrate superior generative capabilities. However, these models are resource-intensive. To alleviate this issue, we explore distilling knowledge from instruction-tuned LLMs into much smaller ones. To this end, we carefully develop a large set of 2.58M instructions based on both existing and newly-generated instructions. In addition to being sizable, we design our instructions to cover a broad set of topics to ensure diversity. Extensive analysis of our instruction dataset confirms its diversity, and we generate responses for these instructions using gpt-3.5-turbo. Leveraging these instructions, we fine-tune a diverse herd of models, collectively referred to as LaMini-LM, which includes models from both the encoder-decoder and decoder-only families, with varying sizes. We evaluate the performance of our models using automatic metrics on 15 different natural language processing (NLP) benchmarks, as well as through human assessment. The results demonstrate that our proposed LaMini-LM models are comparable to competitive baselines, while being much smaller in size.
研究の動機と目的
- リソース要件の高い LLM を緩和するため、より小型で効率的な指示調整モデルの開発を動機づける。
- 2.58M の例を合計する大規模で多様な指示データセット(LaMini instruction dataset)を作成する。
- 知識を LLM から、多様なアーキテクチャとサイズの小型モデル群へ蒸留する。
- 自動評価と人間評価の両方で複数のNLPベンチマークを評価し、幻覚と有害性を評価する。
- リソース制約のある設定でのさらなる研究と展開を促進するために、データセット、モデルチェックポイント、およびコードを提供する。
提案手法
- self-instruct、P3、FLAN、Alpaca のソースを組み合わせて 2.58M の instruction-response データセットを組み立て、gpt-3.5-turbo を用いた例指向およびトピック指向の生成で拡張する。
- シーケンスレベルの(オフライン)蒸留を行い、教師(gpt-3.5-turbo) の出力を模倣するよう小型の学生モデルを訓練する。
- 複数のソース(T5、Flan-T5、Cerebras-GPT、GPT-2/Neo/J、LLaMA)からの初期化で、エンコーダ-デコーダおよびデコーダ専用のアーキテクチャにわたって 61M–7B のファミリをファインチューンする。
- 自動評価ハーネスを用いて 15 種類の多様なNLPベンチマークを評価し、114 のユーザー志向の指示で人間評価を実施する。
- 専用の LaMini-Hallucination テストセットを用いて幻覚を評価し、OpenAI Moderation を用いた RealToxicityPrompts で有害性を評価する。
- データセットのサブセットとアーキテクチャ(エンコーダ-デコーダ vs デコーダ専用)が性能に与える影響を分析する。
実験結果
リサーチクエスチョン
- RQ1大規模な蒸留指示データセットは、小型モデルで競争力のある性能をもたらすか。
- RQ2蒸留後の指示調整性能に対して、異なるモデルアーキテクチャとサイズはどのような影響を与えるか。
- RQ3指示データセットの異なるサブセットを使用することが下流タスクと人間評価にどのような影響を与えるか。
- RQ4基準モデルおよび専有モデルと比較して、幻覚と有害性の点で LaMini-LMs はどう機能するか。
主な発見
- 多くの LaMini モデルは Alpaca-7B のようなベースラインに匹敵・上回るか、下流タスクで LLaMA-7B に近づきつつ、はるかに小型のままです。
- エンコーダ-デコーダ型の LaMini モデルは、小規模スケールでデコーダー専用の対になるモデルよりも性能が高いことが多い。LaMini-Flan-T5-248M は LLaMA-7B に匹敵し、LaMini-LLaMA-7B は総合結果で LLaMA-7B および Alpaca-7B を上回る。
- 2.58M の LaMini instruction dataset は性能に大きく影響する。P3/FLAN 由来のサブセットは下流タスクを改善し、self-instruct 関連データは人間評価スコアを高める。
- 改善にもかかわらず、幻覚処理の面でオープンソースの LaMini モデルと GPT-3.5-turbo の間に依然としてギャップがあり、LaMini-Hallucination ベンチマークの作成を促している。
- 有害性分析は、指示調整前はエンコーダ-デコーダモデルが一般により有害性の少ない出力を生成することを示すが、調整後の傾向はアーキテクチャによって異なり、モデルファミリ間で微妙な振る舞いを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。