Skip to main content
QUICK REVIEW

[論文レビュー] A Survey on Knowledge Distillation of Large Language Models

Xiaohan Xu, Ming Li|arXiv (Cornell University)|Feb 20, 2024
Topic Modeling被引用数 51
ひとこと要約

この調査は、知識蒸留(KD)が専有的LLMからオープンソースへ能力を移転する方法を分析し、データ拡張、スキル強化、垂直的応用に重きを置く。

ABSTRACT

In the era of Large Language Models (LLMs), Knowledge Distillation (KD) emerges as a pivotal methodology for transferring advanced capabilities from leading proprietary LLMs, such as GPT-4, to their open-source counterparts like LLaMA and Mistral. Additionally, as open-source LLMs flourish, KD plays a crucial role in both compressing these models, and facilitating their self-improvement by employing themselves as teachers. This paper presents a comprehensive survey of KD's role within the realm of LLM, highlighting its critical function in imparting advanced knowledge to smaller models and its utility in model compression and self-improvement. Our survey is meticulously structured around three foundational pillars: extit{algorithm}, extit{skill}, and extit{verticalization} -- providing a comprehensive examination of KD mechanisms, the enhancement of specific cognitive abilities, and their practical implications across diverse fields. Crucially, the survey navigates the intricate interplay between data augmentation (DA) and KD, illustrating how DA emerges as a powerful paradigm within the KD framework to bolster LLMs' performance. By leveraging DA to generate context-rich, skill-specific training data, KD transcends traditional boundaries, enabling open-source models to approximate the contextual adeptness, ethical alignment, and deep semantic insights characteristic of their proprietary counterparts. This work aims to provide an insightful guide for researchers and practitioners, offering a detailed overview of current methodologies in KD and proposing future research directions. Importantly, we firmly advocate for compliance with the legal terms that regulate the use of LLMs, ensuring ethical and lawful application of KD of LLMs. An associated Github repository is available at https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs.

研究の動機と目的

  • LLM時代におけるKDの役割を説明する。モデル圧縮、能力移転、自己改善を含む。
  • データ拡張がKDを拡張し、スキル重視の蒸留を可能にするかを説明する。
  • アルゴリズム、スキル蒸留、垂直化というKD手法の構造化された分類を提供する。
  • さまざまな領域に及ぶ実践的含意を論じ、今後の研究課題を概説する。

提案手法

  • 3つの柱(アルゴリズム、スキル蒸留、垂直化)に基づくLLMsのKDの分類を提示する。
  • 4段階からなる一般的な蒸留パイプラインを導入する。教師の調整、種知識入力、蒸留知識の生成、学生の訓練。
  • 知識喚起と蒸留を2つの核心目的として形式化し、入力融合と学習損失を定義する式を示す。
  • データ拡張を、特定のスキルのための文脈豊かな訓練データを生成する重要なパラダイムとして強調する。
  • 知識喚起の手法(ラベリング、拡張、データ選定、特徴、フィードバック、自己知識)を説明する。
  • 監督付き微調整、発散/最小化、強化学習、順位最適化を含む蒸留戦略を概観する。

実験結果

リサーチクエスチョン

  • RQ1KDは専有型とオープンソースLLMの性能ギャップをどう埋められるか?
  • RQ2データ拡張とプロンプティングはLLMsの効果的なKDにどのような役割を果たすか?
  • RQ3LLMsのKD手法、スキル、ドメイン固有の応用を最もよく捉える分類は何か?
  • RQ4垂直ドメイン全体でKDを適用する際の実践的含意と課題は何か?

主な発見

  • KDは3つの中核的役割を果たす:能力の強化、効率のためのモデルの圧縮、自己生成知識による自己改善を可能にする。
  • データ拡張はLLMsにおけるKDの不可欠な要素であり、従来の拡張を超えて高品質でドメイン特化の訓練データの生成を可能にする。
  • 構造化された分類(アルゴリズム、スキル蒸留、垂直化)はKDアプローチを整理し、今後の研究を指針する。
  • 蒸留は指示追従、推論、整合性、マルチモーダル統合などさまざまなスキルを前進させる。
  • 垂直化は法務、医療、金融、科学などのドメイン固有のニーズにLLMsを蒸留し、実用性を高める。
  • 本調査はKDの倫理的かつ合法的な使用を強調し、未解決の問題と今後の方向性を指摘する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。