[论文解读] MIND: From Passive Mimicry to Active Reasoning through Capability-Aware Multi-Perspective CoT Distillation
MIND 引入了一种能力自适应、多视角的 CoT 蒸馏框架,配备一个教学助理(MetaNet),动态将监督对齐到学生模型不断发展的能力,在 ID 和 OOD 基准上实现 SOTA 结果。
While Large Language Models (LLMs) have emerged with remarkable capabilities in complex tasks through Chain-of-Thought reasoning, practical resource constraints have sparked interest in transferring these abilities to smaller models. However, achieving both domain performance and cross-domain generalization remains challenging. Existing approaches typically restrict students to following a single golden rationale and treat different reasoning paths independently. Due to distinct inductive biases and intrinsic preferences, alongside the student's evolving capacity and reasoning preferences during training, a teacher's "optimal" rationale could act as out-of-distribution noise. This misalignment leads to a degeneration of the student's latent reasoning distribution, causing suboptimal performance. To bridge this gap, we propose MIND, a capability-adaptive framework that transitions distillation from passive mimicry to active cognitive construction. We synthesize diverse teacher perspectives through a novel "Teaching Assistant" network. By employing a Feedback-Driven Inertia Calibration mechanism, this network utilizes inertia-filtered training loss to align supervision with the student's current adaptability, effectively enhancing performance while mitigating catastrophic forgetting. Extensive experiments demonstrate that MIND achieves state-of-the-art performance on both in-distribution and out-of-distribution benchmarks, and our sophisticated latent space analysis further confirms the mechanism of reasoning ability internalization.
研究动机与目标
- 推动将 Chain-of-Thought (CoT) 推理从大型大模型迁移到紧凑型 Student Models (SLMs),同时保留多模态推理与泛化能力。
- 解决分布崩溃、推理路径之间缺乏结构协同、以及静态监督与不断演进的学生能力之间的错位问题。
- 提出一个动态、能力感知的蒸馏框架,综合多样化视角并使监督自适应学习者状态。
- 引入教学助理(MetaNet)与基于反馈的惯性标定,指引视角融合并缓解遗忘。
提出的方法
- 构建八个正交认知视角,并提示教师 LLM 为每个训练样本生成多视角的推理理由。
- 构建 MetaNet(教学助理),利用特征对齐、通过多头自注意力实现视角协同,以及自适应评分来预测视角的兼容性。
- 使用基于反馈的惯性标定机制使 MetaNet 的预测与学生的实时训练损失对齐,从而实现稳定的、类课程的视角加权。
- 通过一致性正则化监督,选择高置信度的视角并通过 Jensen-Shannon 发散在它们之间强制一致性。
- 以两项目标函数对学生进行训练:带权重的监督微调(SFT)损失 + 配对一致性正则化损失。
- 用Dirichlet过程混合模型(DPMM)和潜在空间编码器分析学生的潜在空间,以验证不同认知原语是否被内化。
实验结果
研究问题
- RQ1如何将多种推理视角有效蒸馏到单一紧凑模型中,而不坍缩成单一路径?
- RQ2是否存在一个动态、能力感知的监督机制来使教师引导与学生不断发展的能力对齐,从而提升 ID 与 OOD 的泛化?
- RQ3教学助理能够校准视角融合以减少蒸馏过程中的幻觉和遗忘吗?
- RQ4潜在表示是否呈现出对应不同视角的拓扑可分离的推理原语?
- RQ5多视角融合对于在多样任务和模型规模下实现稳健性能是否是必需的?
主要发现
| Method | MATH500 | GSM8K | SVAMP | Avg gain | CSQA | StrategyQA | GPQA-D | Avg gain |
|---|---|---|---|---|---|---|---|---|
| Base (Qwen2.5-7B-Instruct) | 77.20 | 92.36 | 90.33 | ↑3.99 | 83.45 | 68.68 | 30.30 | ↑4.46 |
| SbS (Hsieh et al., 2023) | 77.40 | 94.77 | 93.00 | ↑2.23 | 83.20 | 67.25 | 27.46 | ↑5.97 |
| MCC (Chen et al., 2023) | 82.20 | 90.52 | 91.00 | ↑2.71 | 81.72 | 67.03 | 26.77 | ↑6.76 |
| MoDE (Li et al., 2024b) | 77.67 | 94.16 | 93.33 | ↑2.23 | 83.70 | 67.03 | 24.75 | ↑6.78 |
| EDIT (Dai et al., 2025) | 79.50 | 94.28 | 93.50 | ↑1.53 | 83.80 | 67.50 | 29.10 | ↑5.13 |
| Ours w/o fusion | 51.60 | 83.96 | 82.33 | ↑4.41 | 71.57 | 68.21 | 17.55 | ↑7.83 |
| Ours w/ fusion | 82.63 | 94.92 | 94.31 | – | 83.98 | 70.74 | 41.10 | – |
- MIND 在多种学生模型规模下,在同分布内和分布外基准上都达到最先进的性能。
- 动态、与能力对齐的八视角融合优于单一视角变体和基线方法,包括强大的蒸馏方法。
- 具有惯性标定监督的 MetaNet 教学助理能缓解遗忘并稳定训练,尤其在 OOD 任务上提升泛化。
- 潜在空间分析显示八位专家形成了不同的簇,表明内部化了多样的认知原语,而非只是表层模板记忆。
- MIND 展现数据效率,在样本量仅约 497 时就取得显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。