[논문 리뷰] MIND: From Passive Mimicry to Active Reasoning through Capability-Aware Multi-Perspective CoT Distillation
MIND는 능력 적응형의 다관점 CoT 증류 프레임워크를 Teaching Assistant (MetaNet)와 함께 도입하여 학생 모델의 변하는 용량에 맞춰 감독을 동적으로 조정하고, ID와 OOD 벤치마크에서 최첨단(SOTA) 결과를 달성합니다.
While Large Language Models (LLMs) have emerged with remarkable capabilities in complex tasks through Chain-of-Thought reasoning, practical resource constraints have sparked interest in transferring these abilities to smaller models. However, achieving both domain performance and cross-domain generalization remains challenging. Existing approaches typically restrict students to following a single golden rationale and treat different reasoning paths independently. Due to distinct inductive biases and intrinsic preferences, alongside the student's evolving capacity and reasoning preferences during training, a teacher's "optimal" rationale could act as out-of-distribution noise. This misalignment leads to a degeneration of the student's latent reasoning distribution, causing suboptimal performance. To bridge this gap, we propose MIND, a capability-adaptive framework that transitions distillation from passive mimicry to active cognitive construction. We synthesize diverse teacher perspectives through a novel "Teaching Assistant" network. By employing a Feedback-Driven Inertia Calibration mechanism, this network utilizes inertia-filtered training loss to align supervision with the student's current adaptability, effectively enhancing performance while mitigating catastrophic forgetting. Extensive experiments demonstrate that MIND achieves state-of-the-art performance on both in-distribution and out-of-distribution benchmarks, and our sophisticated latent space analysis further confirms the mechanism of reasoning ability internalization.
연구 동기 및 목표
- 대형 LLM의 체인-오브-생각(CoT) 추론을 컴팩트한 학생 모델(SLM)로 이전하도록 동기를 부여하되, 다중 모드 추론과 일반화를 유지합니다.
- 분포 붕괴, 추론 경로 간의 구조적 시너지 부재, 변화하는 학생 용량과 정적 감독의 불일치를 해소합니다.
- 다양한 관점을 종합하고 학습자의 상태에 맞춰 감독을 적응시키는 동적이며 능력 인식적인 증류 프레임워크를 제안합니다.
- Perspective fusion를 안내하고 망각을 줄이기 위해 Teaching Assistant(MetaNet)를 도입합니다.
제안 방법
- 8개의 직교 인지 관점을 구성하고, 각 학습 예제에 대해 다관점 합리화를 생성하도록 교사 LLM에 프롬프트를 건다.
- Feature alignment를 사용하고, 다중 헤드 셀프 어텐션을 통한 관점 시너지를 활용하며, 관점 호환성을 예측하기 위한 적응적 점수를 갖춘 MetaNet(MetaNet Teaching Assistant)을 구축한다.
- 피드백 주도 관성 보정 메커니즘을 사용하여 MetaNet 예측을 학생의 실시간 학습 손실과 정렬하고, 관점에 대한 안정적이고 커리큘럼 유사한 가중치를 가능하게 한다.
- 고신뢰 관점을 선별하고 이들 간의 합의를 Jensen-Shannon 발산으로 강제하여 일관성 규제 감독을 적용한다.
- 선호 가중된 감독 미세 조정(SFT) 손실과 쌍별 일관성 정규화 손실의 두 항 목표로 학생을 학습시킨다.
- Dirichlet Process Mixture Model(DPMM)과 잠재 공간 인코더를 사용하여 학생의 잠재 공간을 분석하고 서로 다른 인지 원시가 내부화되었는지 확인한다.
실험 결과
연구 질문
- RQ1다양한 추론 관점을 하나의 단일 경로로 수렴하지 않으면서도 효과적으로 하나의 컴팩트한 모델로 증류하려면 어떻게 해야 하는가?
- RQ2동적이고 능력 인식적인 감독 메커니즘이 교사의 지도를 학생의 변화하는 용량에 맞춰 정렬하여 ID 및 OOD 일반화를 개선할 수 있는가?
- RQ3관점 융합을 보정할 수 있는 Teaching Assistant가 증류 과정에서 환각과 망각을 줄일 수 있는가?
- RQ4잠재 표현이 서로 다른 관점에 대응하는 위상적으로 구분 가능한 추론 원리를 보이는가?
- RQ5다양한 작업과 모델 규모에 걸친 견고한 성능을 위해 다관점 융합이 필수적인가?
주요 결과
| 방법 | MATH500 | GSM8K | SVAMP | 평균 증가 | CSQA | StrategyQA | GPQA-D | 평균 증가 |
|---|---|---|---|---|---|---|---|---|
| Base (Qwen2.5-7B-Instruct) | 77.20 | 92.36 | 90.33 | ↑3.99 | 83.45 | 68.68 | 30.30 | ↑4.46 |
| SbS (Hsieh et al., 2023) | 77.40 | 94.77 | 93.00 | ↑2.23 | 83.20 | 67.25 | 27.46 | ↑5.97 |
| MCC (Chen et al., 2023) | 82.20 | 90.52 | 91.00 | ↑2.71 | 81.72 | 67.03 | 26.77 | ↑6.76 |
| MoDE (Li et al., 2024b) | 77.67 | 94.16 | 93.33 | ↑2.23 | 83.70 | 67.03 | 24.75 | ↑6.78 |
| EDIT (Dai et al., 2025) | 79.50 | 94.28 | 93.50 | ↑1.53 | 83.80 | 67.50 | 29.10 | ↑5.13 |
| Ours w/o fusion | 51.60 | 83.96 | 82.33 | ↑4.41 | 71.57 | 68.21 | 17.55 | ↑7.83 |
| Ours w/ fusion | 82.63 | 94.92 | 94.31 | – | 83.98 | 70.74 | 41.10 | – |
- MIND는 여러 학생 모델 크기에 걸쳐 ID와 OOD 벤치마크 모두에서 최첨단 성능을 달성한다.
- 8개 관점의 동적이고 능력에 맞춘 융합은 단일 관점 변형 및 강력한 증류 방법을 포함한 기준선을 상회한다.
- 관성 보정 감독이 있는 MetaNet Teaching Assistant는 망각을 완화하고 학습을 안정시켜 일반화를 향상시키며 특히 OOD 과제에서 더 큰 효과를 보인다.
- 잠재 공간 분석에서 여덟 명의 전문가가 서로 구분된 클러스터를 형성하여 표면적인 템플릿 암기보다 다양한 인지 원리의 내부화를 시사한다.
- MIND는 데이터 효율성을 보여주며 497개의 학습 샘플로도 높은 이득을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.