[論文レビュー] MIND: From Passive Mimicry to Active Reasoning through Capability-Aware Multi-Perspective CoT Distillation
MIND は、能力適応型のマルチ視点 CoT 蒸留フレームワークを Teaching Assistant(MetaNet)とともに導入し、監督を学生モデルの進化する能力に動的に適合させることで、ID および OOD ベンチマークで最先端の結果を達成します。
While Large Language Models (LLMs) have emerged with remarkable capabilities in complex tasks through Chain-of-Thought reasoning, practical resource constraints have sparked interest in transferring these abilities to smaller models. However, achieving both domain performance and cross-domain generalization remains challenging. Existing approaches typically restrict students to following a single golden rationale and treat different reasoning paths independently. Due to distinct inductive biases and intrinsic preferences, alongside the student's evolving capacity and reasoning preferences during training, a teacher's "optimal" rationale could act as out-of-distribution noise. This misalignment leads to a degeneration of the student's latent reasoning distribution, causing suboptimal performance. To bridge this gap, we propose MIND, a capability-adaptive framework that transitions distillation from passive mimicry to active cognitive construction. We synthesize diverse teacher perspectives through a novel "Teaching Assistant" network. By employing a Feedback-Driven Inertia Calibration mechanism, this network utilizes inertia-filtered training loss to align supervision with the student's current adaptability, effectively enhancing performance while mitigating catastrophic forgetting. Extensive experiments demonstrate that MIND achieves state-of-the-art performance on both in-distribution and out-of-distribution benchmarks, and our sophisticated latent space analysis further confirms the mechanism of reasoning ability internalization.
研究の動機と目的
- 大規模 LLM からコンパクトな Student Models (SLMs) へ Chain-of-Thought (CoT) 推論を転移させつつ、多 modality 推論と一般化を維持する動機付け。
- 分布崩壊、推論経路間の構造的協調の欠如、進化する学生能力に対する静的監督の不適合を解決する。
- 多様な視点を統合し、学習者の状態に適応する動的で能力認識型の蒸留フレームワークを提案する。
- Teaching Assistant(MetaNet)と忘却を緩和するフィードバック駆動の慣性較正を導入し、視点融合を指導し忘却を抑制する。
提案手法
- 8つの正交的認知視点を構築し、教師 LLM に訓練データごとのマルチ視点の合理を生成させる。
- MetaNet(Teaching Assistant)を構築し、特徴整列、マルチヘッド自己注意による視点シナジー、適応スコアリングを用いて視点適合性を予測する。
- フィードバック駆動の慣性較正メカニズムを用いて MetaNet の予測を学生のリアルタイムの訓練損失と整合させ、視点の安定したカリキュラム様重み付けを実現する。
- 高信頼度の視点を選択し、それらの間で Jensen-Shannon 距離によるコンセンサスを課すことで整合性正則化の監督を適用する。
- 学生を2項の目的で訓練する:好み重み付きの監督付き微調整(SFT)損失とペアワイズ整合性正則化損失。
- Dirichlet Process Mixture Model(DPMM)と潜在空間エンコーダを用いて学生の潜在空間を分析し、異なる認知プリミティブが内部化されていることを検証する。
実験結果
リサーチクエスチョン
- RQ1複数の推論視点を単一のコンパクトなモデルにどのように効果的に蒸留して、1つの経路へ崩壊させずに済むか?
- RQ2動的で能力を認識した監督機構は、教師の指導を学生の進化する能力と整合させ、ID および OOD の一般化を改善できるか?
- RQ3Teaching Assistant が視点の融合を較正できれば、蒸留中の幻覚や忘却を減らせるか?
- RQ4潜在表現は異なる視点に対応するトップロジー的に分離された推論プリミティブを示すか?
- RQ5マルチ視点の融合は、多様なタスクやモデルスケールに対して堅牢な性能に不可欠か?
主な発見
| 方法 | MATH500 | GSM8K | SVAMP | 平均 gain | CSQA | StrategyQA | GPQA-D | 平均 gain |
|---|---|---|---|---|---|---|---|---|
| Base (Qwen2.5-7B-Instruct) | 77.20 | 92.36 | 90.33 | ↑3.99 | 83.45 | 68.68 | 30.30 | ↑4.46 |
| SbS (Hsieh et al., 2023) | 77.40 | 94.77 | 93.00 | ↑2.23 | 83.20 | 67.25 | 27.46 | ↑5.97 |
| MCC (Chen et al., 2023) | 82.20 | 90.52 | 91.00 | ↑2.71 | 81.72 | 67.03 | 26.77 | ↑6.76 |
| MoDE (Li et al., 2024b) | 77.67 | 94.16 | 93.33 | ↑2.23 | 83.70 | 67.03 | 24.75 | ↑6.78 |
| EDIT (Dai et al., 2025) | 79.50 | 94.28 | 93.50 | ↑1.53 | 83.80 | 67.50 | 29.10 | ↑5.13 |
| Ours w/o fusion | 51.60 | 83.96 | 82.33 | ↑4.41 | 71.57 | 68.21 | 17.55 | ↑7.83 |
| Ours w/ fusion | 82.63 | 94.92 | 94.31 | – | 83.98 | 70.74 | 41.10 | – |
- MIND は、複数の student model サイズにわたって、インディスティュリション(ID)およびアウトディストリビューション(OOD)ベンチマークの最先端の性能を達成。
- 8つの視点を動的かつ能力に合わせて融合することで、単一視点のバリアントや強力な蒸留法を含むベースラインよりも優れる。
- 慣性較正を伴う MetaNet Teaching Assistant は忘却を緩和し、特に OOD タスクでの一般化を安定化させる。
- 潜在空間解析により、8つの専門家が明確なクラスターを形成し、表面的なテンプレート記憶化ではなく、多様な認知プリミティブの内部化を示す。
- MIND はデータ効率性を示し、訓練サンプル数がわずか497程度でも強い利得を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。