Skip to main content
QUICK REVIEW

[논문 리뷰] Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation

Bowei He, Yankai Chen|arXiv (Cornell University)|2026. 02. 12.
Topic Modeling인용 수 0
한 줄 요약

IOA를 도입한 세 단계의 교수 프레임워크(Identifier, Organizer, Adapter)로 LLM 지식을 더 작은 모델로 요약하여 추론 및 코드 작업에서 강한 이익을 달성한다.

ABSTRACT

Knowledge distillation from Large Language Models (LLMs) to smaller models has emerged as a critical technique for deploying efficient AI systems. However, current methods for distillation via synthetic data lack pedagogical awareness, treating knowledge transfer as a one-off data synthesis and training task rather than a systematic learning process. In this paper, we propose a novel pedagogically-inspired framework for LLM knowledge distillation that draws from fundamental educational principles. Our approach introduces a three-stage pipeline -- Knowledge Identifier, Organizer, and Adapter (IOA) -- that systematically identifies knowledge deficiencies in student models, organizes knowledge delivery through progressive curricula, and adapts representations to match the cognitive capacity of student models. We integrate Bloom's Mastery Learning Principles and Vygotsky's Zone of Proximal Development to create a dynamic distillation process where student models approach teacher model's performance on prerequisite knowledge before advancing, and new knowledge is introduced with controlled, gradual difficulty increments. Extensive experiments using LLaMA-3.1/3.2 and Qwen2.5 as student models demonstrate that IOA achieves significant improvements over baseline distillation methods, with student models retaining 94.7% of teacher performance on DollyEval while using less than 1/10th of the parameters. Our framework particularly excels in complex reasoning tasks, showing 19.2% improvement on MATH and 22.3% on HumanEval compared with state-of-the-art baselines.

연구 동기 및 목표

  • 증류 과정에서 학생 LMs의 특정 지식 격차를 타깃으로 식별하고 해소하는 방법을 규명한다.
  • Bloom의 마스터리 학습과 ZPD에 기반한 점진적 커리큘럼 기반 계획을 통해 지식 전달을 조직한다.
  • 학생 모델의 인지 능력에 맞춰 데이터 표현을 조정하여 전이 능력을 향상시키기 위해 데이터 표현을 학생 모델의 인지 능력에 맞춰 적응시킨다.
  • 지시 따르기 및 추론 벤치마크 전반에서 IOA의 효과성과 효율성을 입증한다.

제안 방법

  • 대상 도메인을 지식 모듈로 분해하고 모듈 간의 학생-교사 격차를 진단한다.
  • 선행 조건의 의존성 그래프를 구성하여 커리큘럼 순서를 안내한다.
  • 학생 능력에 맞춰 프롬프트와 데이터 적응으로 숙달 기반 진행을 구현한다.
  • 인지 정합성을 위한 데이터 표현(추상화, 분해, 템플릿, 언어 단순화)을 변환하는 어댑터를 활용한다.
  • 격차를 진단하고, 커리큘럼을 구성하고, 표현을 적응시키고, 학습시키고, 숙달될 때까지 재평가하는 반복적 사이클로 작동한다.

실험 결과

연구 질문

  • RQ1학생 LMs의 지식 결핍을 매우 세분화된 지식 모듈 수준에서 식별할 수 있는가?
  • RQ2교육학에서 영감을 얻은 커리큘럼 주도적 증류가 기준 합성 데이터 방법과 비교하여 지식 전달을 향상시키는가?
  • RQ3표현 및 속도 조정(ZPD, 숙달)을 적응시키는 것이 지시 준수 및 추론 작업의 성능에 어떤 영향을 미치는가?
  • RQ4다양한 학생-교사(Qwen/LLaMA) 및 교사(OpenAI o1, DeepSeek-R1)에서 IOA가 수학, 코딩 등 복잡한 작업에 미치는 영향은 무엇인가?

주요 결과

모델방법DollyEvalVicunaEvalGSM8KMATHAIME2024HumanEvalMBPPLiveCodeBenchGPQA-D
Qwen2.5-3BIOA (Ours)38.16*36.83*55.79*15.53*6.29*40.64*47.86*26.94*13.74*
  • IOA는 Qwen2.5-3B와 LLaMA3.2-3B에서 지시 준수, 추론 및 코딩 벤치마크에서 일관되게 최고 성능을 달성한다.
  • DollyEval 및 VicunaEval에서 IOA는 기준선보다 대략 1.5–2.0점 우수하다.
  • OpenAI o1과 함께 GSM8K/MATH에서 15.53/14.02, DeepSeek-R1과 함께 16.02/14.81에 도달하여 추론 전이 향상을 나타낸다.
  • 코드 벤치마크에서 가장 큰 이득이 나타나며, HumanEval이 40 이상으로 개선되고 MBPP/LiveCodeBench도 크게 상승한다.
  • GPQA-D 지식 추론 이득이 1–2점 관찰된다.
  • 절삭 실험은 IOA의 각 구성 요소(Identifier, Organizer, Adapter)가 성능에 기여하며, 특히 코딩 과제에서 Adapter의 중요성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.