Skip to main content
QUICK REVIEW

[論文レビュー] Directional Reasoning Trajectory Change (DRTC): Identifying Critical Trace Segments in Reasoning Models

W. L. Chang|arXiv (Cornell University)|Feb 17, 2026
Explainable Artificial Intelligence (XAI)被引用数 0
ひとこと要約

DRTC は長期視点のモデル traces における pivot 決定点を特定するプロセス因果フレームワークを導入し、オンポリシー受信者側介入を適用し、特定の文脈セグメントが推論軌道をどう導くかを示す署名付きのチャンクごとの寄与を得る。4モデルおよび 500-problem MATH 拡張研究を通じて、学習された pivot は影響を集中させ、ランダムなスパンを上回り、曲率が診断的文脈を提供する。

ABSTRACT

Understanding how language models carry out long-horizon reasoning remains an open challenge. Existing interpretability methods often highlight tokens correlated with an answer, but rarely reveal where consequential reasoning turns occur, which earlier context triggers them under causal intervention, or whether highlighted text actually steers the rollout. We introduce Directional Reasoning Trajectory Change (DRTC), a process-causal method that (i) detects pivot decision points via uncertainty and distribution-shift signals and (ii) applies receiver-side interventions that preserve the realized continuation without resampling while blocking information flow from selected earlier chunks only at a pivot. DRTC measures how each intervention redirects the log-probability trajectory relative to the realized rollout direction, yielding signed per-chunk attributions; we also compute logit-space curvature changes and curvature signatures as a complementary geometric diagnostic. Across four reasoning models, influence is sharply concentrated (Gini approximately 0.50-0.58, top-5% mass approximately 0.23-0.28), and learned pivots induce stronger effects than matched random spans. In a 500-problem MATH scaling study with R1-Distill-Qwen-1.5B, learned spans continue to outperform matched random spans (median Delta=0.409, 355/500 positive; p=2.3e-21), and curvature-impact co-localizes with DRTC within traces as a diagnostic. We benchmark against gradient- and perturbation-based chunk attributions and show graded outcome linkage: under embedding-interpolation edits, top-ranked DRTC chunks reduce teacher-forced gold-answer log-probability more than strict position-matched random chunks on a stability-filtered subset. Overall, DRTC provides a causally grounded view of how specific context elements steer on-policy reasoning trajectories.

研究の動機と目的

  • realized reasoning traces における pivotal decision points を不確実性と分布シフト信号を用いて識別する。
  • realized rollout を保持しつつ pivot で特定の以前のチャンクをブロックする on-policy receiver-side interventions を開発する。
  • intervention が log-probability 軌道を realized rollout に向かってどの方向に転換させるかを測定して方向性の影響を定量化する。
  • ピボットやスコアの定義に曲率を用くことなく、方向付け寄与を補完する曲率ベースの診断を導入する。

提案手法

  • オンポリシーの rollout を固定ストライドのチャンク(16 tokens)に分割する。
  • エントロピー、トップ-2 マージン、トークン窓間の Jensen–Shannon ダ イバージェンスを組み合わせた総合ピボットスコアを用いて pivot 位置を検出する。
  • pivot において受信者側アテンションマスキングを適用し、特定の pivot だけで情報フローをブロックしつつ、実現された継続を保持する。
  • 基準線とマスクされた実行を log-probability 空間で比較して pivot ローカルの軌道効果と方向成分を計算する。
  • per-chunk の寄与を DRTC(i) = sum_k u_k w_k,i δ_k,i として集計する。ここで δ_k,i は realized rollout 方向 g への方向整合性。
  • 統計処理としての曲率変化を診断として計算する。これは pivoting や scoring の要因ではない。
Figure 1 : DRTC pipeline overview. Curvature is diagnostic only and is not used to define pivots or scores.
Figure 1 : DRTC pipeline overview. Curvature is diagnostic only and is not used to define pivots or scores.

実験結果

リサーチクエスチョン

  • RQ1不確実性と分布シフト信号を用いて realized long-horizon reasoning trace 内の pivot moment を局在化できるか?
  • RQ2 resampling せずに pivot-local interventions によって earlier chunks がその後の推論ステップに及ぼす因果影響を受信者側で明らかにできるか?
  • RQ3 log-probability 空間での方向性寄与は、文脈要素がオンポリシー軌道をどう導くかを意味的に反映するか?
  • RQ4 logit 空間における曲率は介入応答の幾何とどのように関連し、解釈を補助するか?

主な発見

  • 影響は鋭く集中する:中央値のジニ係数は 0.50 から 0.58 の範囲、上位5%のチャンクが総影響の約 0.23 から 0.28 を占める。
  • 学習された pivot(C8)は、4モデル全てで、マッチしたランダム span(C9)よりも pivot-local 介入の大きさが強い。
  • 500 問題の MATH 拡張研究を通じて、学習された span はランダム span を上回り、中央値 Δ = 0.409、355/500 が positives(p = 2.3 × 10^-21)。
  • 曲率診断は診断的であり、いくつかのケースで DRTC と共定位するが、pivot やスコアを定義する際には使用されない。
  • 嵌め込み補間テストの安定性フィルター付きサブセットでは、上位ランクの DRTC チャンクは gold-answer の log-probability を strictly 位置一致のランダムチャンクより劣化させる。
  • 寄与は依然として希 sparse かつ構造化されており、pivot 重み付けが冗長でないことが示されている。
Figure 2 : Curvature invariance under diagnostic logging (representative model: R1-Distill-Qwen-1.5B ). Per-chunk DRTC scores from C0 and C8 lie on the identity line ( $\rho=1.000$ ), confirming curvature computation is purely diagnostic.
Figure 2 : Curvature invariance under diagnostic logging (representative model: R1-Distill-Qwen-1.5B ). Per-chunk DRTC scores from C0 and C8 lie on the identity line ( $\rho=1.000$ ), confirming curvature computation is purely diagnostic.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。