Skip to main content
QUICK REVIEW

[論文レビュー] CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles

Swapnil Parekh|arXiv (Cornell University)|Feb 28, 2026
Advanced Graph Neural Networks被引用数 0
ひとこと要約

CIRCUSは、エッジの安定性を非ネスト型のプルーニング構成全体で abducting することにより、説明の不確実性として回路発見を再定義し、しきい値の選択に頑健で因果的に検証された合意回路を生成する。得られたコア回路は、構成の并集合より約40倍小さいが、説明力を保持し、活性化パッチングによる因果関係の関連性を示す。

ABSTRACT

Every mechanistic circuit carries an invisible asterisk: it reflects not just the model's computation, but the analyst's choice of pruning threshold. Change that choice and the circuit changes, yet current practice treats a single pruned subgraph as ground truth with no way to distinguish robust structure from threshold artifacts. We introduce CIRCUS, which reframes circuit discovery as a problem of uncertainty over explanations. CIRCUS prunes one attribution graph under B configurations, assigns each edge an empirical inclusion frequency s(e) in [0,1] measuring how robustly it survives across the configuration family, and extracts a consensus circuit of edges present in every view. This yields a principled core/contingent/noise decomposition (analogous to posterior model-inclusion indicators in Bayesian variable selection) that separates robust structure from threshold-sensitive artifacts, with negligible overhead. On Gemma-2-2B and Llama-3.2-1B, consensus circuits are 40x smaller than the union of all configurations while retaining comparable influence-flow explanatory power, consistently outperform influence-ranked and random baselines, and are confirmed causally relevant by activation patching.

研究の動機と目的

  • 回路発見における閾値主導のばらつきと、それが解釈可能性へ与える影響の問題を動機づける。
  • config-baggingを導入し、 pruning 構成間のエッジの頑健性を定量化する。
  • 頑健な構造とアーティファクトを分離するコア/ contingents/ ノイズの分類を定義する。
  • 全ビューに共通して現れるエッジを反映するコンセンサス回路を提供し、その説明力を定量化する。
  • Gemma-2-2BとLlama-3.2-1Bで因果的撹乱証拠とともにアプローチを検証する。

提案手法

  • プルーニング構成をビューとして扱い、B個の非ネスト型構成に渡るエッジ包含頻度s(e)を計算する。
  • 厳密コンセンサスCτ=1を、全ビューに存在するエッジとして定義し、必要に応じて contingencies を探索するため低いτも使用する。
  • 完全なベイズモデルなしに包含確率の代理として安定性に着想を得た頻度スコアを使用する。
  • IR(S)として、総エッジ影響のうちsubset Sが担う割合を測定する。
  • s(e)に基づくコア/contingent/noiseの分類法を提供し、報告と潜在的なブーストの指針とする。
Figure 1: CIRCUS pipeline. A single attribution graph is pruned under $B$ configurations to yield multiple views; edges receive stability scores $s(e)$ . Strict consensus $C_{\tau=1}$ keeps only edges present in all views (solid lines); dashed edges are contingent alternatives. The core/contingent/n
Figure 1: CIRCUS pipeline. A single attribution graph is pruned under $B$ configurations to yield multiple views; edges receive stability scores $s(e)$ . Strict consensus $C_{\tau=1}$ keeps only edges present in all views (solid lines); dashed edges are contingent alternatives. The core/contingent/n

実験結果

リサーチクエスチョン

  • RQ1 pruning閾値のばらつきは推定回路構造にどのような影響を与えるか?
  • RQ2非ネスト型構成のファミリ acrossでエッジの頑健性を定量化できるか?
  • RQ3合意回路は閾値依存エッジを排除しつつ説明力を保持できるか?
  • RQ4活性化パッチングによって合意回路がモデル挙動と因果的に関連しているか?

主な発見

  • 合意回路は全構成の并集合より約40倍小さいが、影響流の説明力は対等に維持される。
  • 安定性s(e)の高いエッジは影響力を著しく大きく持ち、低安定性エッジに比べて平均エッジ影響力が最大約70倍増加する。
  • 活性化パッチングは、合意コアの因果的関連性を matched controls に対して示す(p=0.0004; oracleの回復率57%)。
  • 全体のunion-prunedベースラインへの平均KLダイバージェンスは、合意(vs. union-pruned)で400倍低い。
  • 単一のアトリビューション実行を超える全パイプラインのオーバーヘッドは5.5%、合意構築は<1 ms。
Figure 2: Left: Per-prompt KL divergence (log scale); consensus (blue) clusters near $10^{-3}$ while union-pruned (orange) collapses on outliers. Right: Activation patching recovery; consensus at $57\%$ of oracle ( $p{=}0.0004$ ) vs. $20\%$ for random.
Figure 2: Left: Per-prompt KL divergence (log scale); consensus (blue) clusters near $10^{-3}$ while union-pruned (orange) collapses on outliers. Right: Activation patching recovery; consensus at $57\%$ of oracle ( $p{=}0.0004$ ) vs. $20\%$ for random.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。