Skip to main content
QUICK REVIEW

[論文レビュー] WASD: Locating Critical Neurons as Sufficient Conditions for Explaining and Controlling LLM Behavior

Haonan Yu, Junhao Liu|arXiv (Cornell University)|Mar 19, 2026
Explainable Artificial Intelligence (XAI)被引用数 0
ひとこと要約

要約: 本論文は、大規模言語モデルの挙動を説明し制御する十分条件として機能する臨界ニューロンを特定することを提案します。

ABSTRACT

Precise behavioral control of large language models (LLMs) is critical for complex applications. However, existing methods often incur high training costs, lack natural language controllability, or compromise semantic coherence. To bridge this gap, we propose WASD (unWeaving Actionable Sufficient Directives), a novel framework that explains model behavior by identifying sufficient neural conditions for token generation. Our method represents candidate conditions as neuron-activation predicates and iteratively searches for a minimal set that guarantees the current output under input perturbations. Experiments on SST-2 and CounterFact with the Gemma-2-2B model demonstrate that our approach produces explanations that are more stable, accurate, and concise than conventional attribution graphs. Moreover, through a case study on controlling cross-lingual output generation, we validated the practical effectiveness of WASD in controlling model behavior.

研究の動機と目的

  • 解釈可能で制御可能なLLMの必要性を動機づける。
  • 挙動の説明の十分条件としての臨界ニューロンの概念を定義する。
  • LLMアーキテクチャ内でこれらのニューロンを特定する方法を提案する。
  • 特定されたニューロンがモデル出力と制御性にどう関連するかを評価する。
  • 安全で信頼性の高いAI展開への潜在的影響を強調する。

提案手法

  • 十分条件としての説明を支えるニューロンを特定するWASDフレームワークを導入する。
  • 特定の挙動や出力と相関するニューロンを同定する技術を説明する。
  • 十分性の基準と、モデル挙動への因果影響を検証する方法を概説する。
  • データ収集からニューロンの特定と検証までの手順的ワークフローを提供する。
  • LLMsへの適用における理論的・実践的配慮を議論する。

実験結果

リサーチクエスチョン

  • RQ1LLMニューロン活性化の文脈で十分条件とは何か。
  • RQ2特定の臨界ニューロンは因果的に特定のLLM挙動を説明・制御できるか。
  • RQ3WASDで局在化されたニューロンはモデル出力を予測・修正するのにどう用いられるか。
  • RQ4特定ニューロンの操作の限界と安全性への影響は何か。

主な発見

  • 提供された抜粋には記載されていません。
  • 利用可能なテキストには定量的結果は記述されていません。
  • 抜粋には具体的な結論や実験結果は含まれていません。
  • 抜粋には要約すべき詳細な発見は含まれていません。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。