[論文レビュー] System 1&2 Synergy via Dynamic Model Interpolation
DAMI は System 1(Instruct) と System 2(Thinking) のチェックポイント間を動的に補間し、各クエリに応じた推論深度を適応させる。トレーニングベースの(DAMI-Pref) とトレーニングなしの(DAMI-Conf) 推定を用い、数学ベンチマークでより高い正確性を、トークンコストの低減とともに達成する。
Training a unified language model that adapts between intuitive System 1 and deliberative System 2 remains challenging due to interference between their cognitive modes. Recent studies have thus pursued making System 2 models more efficient. However, these approaches focused on output control, limiting what models produce. We argue that this paradigm is misaligned: output length is merely a symptom of the model's cognitive configuration, not the root cause. In this work, we shift the focus to capability control, which modulates extit{how models think} rather than extit{what they produce}. To realize this, we leverage existing Instruct and Thinking checkpoints through dynamic parameter interpolation, without additional training. Our pilot study establishes that linear interpolation yields a convex, monotonic Pareto frontier, underpinned by representation continuity and structural connectivity. Building on this, we propose extbf{DAMI} ( extbf{D}yn extbf{A}mic extbf{M}odel extbf{I}nterpolation), a framework that estimates a query-specific Reasoning Intensity $λ(q)$ to configure cognitive depth. For training-based estimation, we develop a preference learning method encoding accuracy and efficiency criteria. For zero-shot deployment, we introduce a confidence-based method leveraging inter-model cognitive discrepancy. Experiments on five mathematical reasoning benchmarks demonstrate that DAMI achieves higher accuracy than the Thinking model while remaining efficient, effectively combining the efficiency of System 1 with the reasoning depth of System 2.
研究の動機と目的
- 出力制御から能力制御へのパラダイム転換を、大規模言語モデルの効率的推論のために動機づける。
- 線形パラメータ補間が、正確性と効率性の間に単調・凸の Pareto フロンティアを生み出すことを示す。
- DAMI (DynAmic Model Interpolation) を導入し、適応的な認知深度のための per-query Reasoning Intensity λ(q) を推定する。
- データ豊富な環境とゼロショット展開の両方に適した2つの推定戦略 (DAMI-Pref と DAMI-Conf) を提供する。
- 複数の数学的推論ベンチマークで superior な accuracy-efficiency のトレードオフを実証する。
提案手法
- Instruct と Thinking のチェックポイント間の動的補間を定式化する: Θ(M)(q) = λ(q)Θ(T) + (1−λ(q))Θ(I).
- 補間が凸 Pareto フロンティアと表現空間の滑らかな経路に沿った連続的な表現連続性をもたらすことを確立する。
- 2つの λ(q) 推定アプローチを提案する: (1) DAMI-Pref は精度と効率のバランスを学習する嗜好学習を用いる。 (2) DAMI-Conf は信頼度信号とモデル間差異を用いたゼロショット展開のための推定。
- DAMI-Pref は報酬モデルを用いて候補係数をペアの嗜好 (Acc, Cost) に基づきランク付けし、バイナリ交差エントロピーで訓練する。
- DAMI-Conf は総合的な曖昧さと認知的差異信号から calibrated シグモイド写像を介して λ(q) を導出する。
- 五つの数学的推論ベンチマークにわたり、出力制御と静的能力ベースのベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1System 1 と System 2 のチェックポイント間のパラメータ補間は、適応的推論深度の制御可能で予測可能なメカニズムを提供するか。
- RQ2DAMI-Pref と DAMI-Conf を含む DPAMI アプローチは、既存の出力制御手法と比較してトークン/経済性の制約下で正確性を改善するか。
- RQ3Instruct と Thinking の補間経路は、クエリ間で正確性と効率性の観点で連続的かつ単調か。
- RQ4DAMI フレームワークはテキストのみの推論を超えるマルチモーダルタスクにどれだけ generalize するか。
- RQ5クエリ依存の推論強度が思考比率とベンチマーク全体のパフォーマンスへ与える影響はどの程度か。
主な発見
- Instruct と Thinking の間の線形補間は、連続的な表現移行を伴う凸で単調な Pareto フロンティアを生み出す。
- DAMI-Pref は正確性を最大で 3.4 ポイント改善し、Qwen3-4B でトークン使用量を最大で 29%削減する。DAMI-Conf はトークンを最大で 40%削減し、2.5 ポイントの精度向上を達成。
- DAMI-Pref は静的マージ、早期終了、ルーティングベースのベースラインを五つの数学ベンチマークで上回る。
- DAMI-Conf はモデルファミリ間で堅牢な精度を保ちつつ大幅な効率向上を達成し、マルチモーダルタスクへも一般化する。
- DAMI 手法は Thinking より 1.46x (DAMI-Pref) および 1.86x (DAMI-Conf) のエンドツーエンドのスピードアップを達成し、Thinking 時間と出力長を削減する。
- DAMI-Routing および他のベースラインは、DAMI が提供する連続的でクエリ適応的改善には及ばない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。