[論文レビュー] Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation
IOAを導入する。識別子、オーガナイザー、アダプターの3段階の教育的枠組みを用いてLLMの知識を小型モデルへ蒸留し、推論とコードタスクで強い効果を達成する。
Knowledge distillation from Large Language Models (LLMs) to smaller models has emerged as a critical technique for deploying efficient AI systems. However, current methods for distillation via synthetic data lack pedagogical awareness, treating knowledge transfer as a one-off data synthesis and training task rather than a systematic learning process. In this paper, we propose a novel pedagogically-inspired framework for LLM knowledge distillation that draws from fundamental educational principles. Our approach introduces a three-stage pipeline -- Knowledge Identifier, Organizer, and Adapter (IOA) -- that systematically identifies knowledge deficiencies in student models, organizes knowledge delivery through progressive curricula, and adapts representations to match the cognitive capacity of student models. We integrate Bloom's Mastery Learning Principles and Vygotsky's Zone of Proximal Development to create a dynamic distillation process where student models approach teacher model's performance on prerequisite knowledge before advancing, and new knowledge is introduced with controlled, gradual difficulty increments. Extensive experiments using LLaMA-3.1/3.2 and Qwen2.5 as student models demonstrate that IOA achieves significant improvements over baseline distillation methods, with student models retaining 94.7% of teacher performance on DollyEval while using less than 1/10th of the parameters. Our framework particularly excels in complex reasoning tasks, showing 19.2% improvement on MATH and 22.3% on HumanEval compared with state-of-the-art baselines.
研究の動機と目的
- 蒸留時に学生LMの特定の知識ギャップを特定し対処する方法を特定する。
- Bloomの習熟学習とZPDに基づく進行的でカリキュラムベースの計画で知識提供を整理する。
- 学生モデルの認知能力に合わせてデータ表現を適応させ、転移を改善する。
- IOAの有効性と効率性を指示遵守・推論ベンチマーク全体で実証する。)
提案手法
- 対象ドメインを知識モジュールに分解し、モジュール間の学生-教師ギャップを診断する。
- 前提条件の依存グラフを構築してカリキュラムの順序を指針する。
- 学生の能力に合わせた Prompt とデータ適応を用いた習熟度ベースの進行を実装する。
- Adapterを用いてデータ表現を認知的整合性(抽象化、分解、テンプレート、言語的単純化)へ変換する。
- 反復サイクルで: ギャップを診断、カリキュラムを組織、表現を適応、訓練、習熟まで再評価を続ける。
実験結果
リサーチクエスチョン
- RQ1学生LMの知識欠如を細粒度の知識モジュールレベルで特定できるか。
- RQ2教育法にインスパイアされたカリキュラム主導の蒸留は、ベースラインの合成データ法と比較して知識移転を改善するか。
- RQ3表現とペーシングの適応(ZPD、習熟)がお客様の指示遂行と推論タスクの性能にどう影響するか。
- RQ4IOAが複雑なタスク(数学、コーディング)に与える影響は、異なる学生教師(Qwen/LLaMA)と教師(OpenAI o1、DeepSeek-R1)でどう現れるか。
主な発見
| モデル | 手法 | DollyEval | VicunaEval | GSM8K | MATH | AIME2024 | HumanEval | MBPP | LiveCodeBench | GPQA-D |
|---|---|---|---|---|---|---|---|---|---|---|
| Qwen2.5-3B | IOA (Ours) | 38.16* | 36.83* | 55.79* | 15.53* | 6.29* | 40.64* | 47.86* | 26.94* | 13.74* |
- IOAはQwen2.5-3BおよびLLaMA3.2-3Bの指示遵守、推論、コーディングベンチマークで一貫して最良の性能を達成。
- DollyEvalとVicunaEvalではIOAがベースラインを約1.5–2.0ポイント上回る。
- IOAはOpenAI o1でGSM8K/MATHをそれぞれ15.53/14.02、DeepSeek-R1で16.02/14.81に達し、推論転移の改善を示す。
- コードベンチマークでは最大のゲインを確認。HumanEvalが40超、MBPP/LiveCodeBenchも大幅に向上。
- GPQA-D知識推論に1–2ポイントの向上が見られる。
- アブレーションによりIOAの各構成要素(Identifier、Organizer、Adapter)が性能に寄与し、特にコーディングタスクではAdapterが重要であることが示される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。