[論文レビュー] PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models
PILOTは軽量なハイパーネットワークを介してクエリ条件付き潜在アンカーを注入し、計画を内部化することで、長期的推論を安定化。最小レイテンシーで数学とコードのタスクを向上させる。
Strategic planning is critical for multi-step reasoning, yet compact Large Language Models (LLMs) often lack the capacity to formulate global strategies, leading to error propagation in long-horizon tasks. Our analysis reveals that LLMs possess latent reasoning capabilities that can be unlocked when conditioned on explicit plans from a teacher model; however, runtime reliance on external guidance is often impractical due to latency and availability constraints. To bridge this gap, we propose PILOT (Planning via Internalized Latent Optimization Trajectories), a non-invasive framework designed to internalize the strategic oversight of large models into intrinsic Latent Guidance. Instead of altering backbone weights, PILOT employs a lightweight Hyper-Network to synthesize a query-conditioned Latent Guidance vector. This vector acts as an internal steering mechanism, guiding the model's representations toward optimal reasoning paths. Extensive experiments on mathematical and coding benchmarks demonstrate that PILOT effectively stabilizes reasoning trajectories, consistently outperforming strong baselines (e.g., +8.9% on MATH500) with negligible inference latency.
研究の動機と目的
- コンパクトなLLMにおける全体的な戦略計画の必要性を動機づけ、マルチステップタスクにおけるエラー伝播を防ぐ。
- バックボーンの重みを変更せずに内部潜在ガイダンス機構を提案する。
- 個別インスタンスの計画信号を生成するハイパーネットワークベースのアンカーアダプターを開発する。
- 推論オーバーヘッドを最小化する非侵襲的な統合を実現するため、エネルギー整列注入を用いる。
提案手法
- アンカー z が pivot layer l† でデコードを条件付ける潜在アンカー生成を導入する。
- 専門家の軌跡から同質のターゲット状態 z* を抽出する Construct-and-Verify パイプラインを用いる。
- デュアルチャネルの文脈統合を備えるアンカーアダプター psiθ を設計し、クエリ条件付きアンカーを合成する。
- グローバルセントロイド z* から温められ、ハイパーネットワーク Hθ によって FiLM のようなパラメータを生成するプロトアンカー P を設計する。
- バックボーンの安定性を維持するため、遅延可視化機構とエネルギー整列注入を介してアンカーを注入する。
- 潜在整列損失で z* に一致させる2段階カリキュラムと、エンベディングショックを避けるゲート正則化を行うアンカー付きファインチューニングを最適化する。
実験結果
リサーチクエスチョン
- RQ1内部潜在ガイダンスはバックボーン重みを変更せず、単一経路推論を安定化できるか。
- RQ2クエリ条件付き潜在アンカーは長期的なタスク(数学・コード生成)で性能を向上させるか。
- RQ3中枢層の深さは数学とコードのようなドメイン間で有効性にどのような影響を与えるか。
- RQ4PILOTのレイテンシ/効率のトレードオフは他の潜在介入法とどう比較されるか。
主な発見
- PILOTはモデルサイズを問わず、数学とコーディングのベンチマークで強力なベースラインを一貫して上回る。
- MATH500 において、PILOT は一部の設定で最大8.9ポイントの改善を達成し、デコードレイテンシの増加はほぼゼロに近い。
- アブレーション実験で、数学にはハイパーネットワークが重要であり、コード生成にはエネルギー整列が不安定性を防ぐために不可欠である。
- 注入深度と経路のダイナミクスはタスクによって異なり、抽象的な数学にはより深い pivot、コード構造にはより早い pivot が有益である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。