[論文レビュー] LLMs Explain't: A Post-Mortem on Semantic Interpretability in Transformer Models
この論文は2つの人気のLLM解釈可能性手法(注意機構に基づくトークン関係と埋め込みベースの特性推定)を批判的に検証し、方法論的アーティファクトとデータセット構造のために基礎的な意味的説明が機能しなくても、納得のいく結果を生み得ることを示しています。
Large Language Models (LLMs) are becoming increasingly popular in pervasive computing due to their versatility and strong performance. However, despite their ubiquitous use, the exact mechanisms underlying their outstanding performance remain unclear. Different methods for LLM explainability exist, and many are, as a method, not fully understood themselves. We started with the question of how linguistic abstraction emerges in LLMs, aiming to detect it across different LLM modules (attention heads and input embeddings). For this, we used methods well-established in the literature: (1) probing for token-level relational structures, and (2) feature-mapping using embeddings as carriers of human-interpretable properties. Both attempts failed for different methodological reasons: Attention-based explanations collapsed once we tested the core assumption that later-layer representations still correspond to tokens. Property-inference methods applied to embeddings also failed because their high predictive scores were driven by methodological artifacts and dataset structure rather than meaningful semantic knowledge. These failures matter because both techniques are widely treated as evidence for what LLMs supposedly understand, yet our results show such conclusions are unwarranted. These limitations are particularly relevant in pervasive and distributed computing settings where LLMs are deployed as system components and interpretability methods are relied upon for debugging, compression, and explaining models.
研究の動機と目的
- トランスフォーマー層全体でトークンレベルの意味論を本当に明らかにするかを注意ベースの関係説明で評価する。
- 埋め込みから人間が解釈できる意味的特徴を標準的なマッピング手法で信頼性よくデコードできるかを評価する。
提案手法
- 標準的な注意ベースの説明パイプラインを再現し、トークン連続性と情報フローの仮定を検証する。
- 2つの一般的なモデル(PLSRとFFNN)と標準的な特徴ノルムデータセット(McRae、Buchanan、Binder)で埋め込み-to-featureノルムマッピングを再現する。
- 内在する仮定に挑戦するため、制御されたアブレーションとセンスチェックを導入する(ランダム/シャッフル特徴、上限マッピング、分類学的破壊)
- 文献で用いられる指標(注意の可視化、F1@10、Spearmanのρ、Neighborhood Accuracy @10)で評価し、仮定が崩れる箇所を報告する。
- 説明可能性出力を過剰解釈しないよう、 negativeな結果を通じて方法論的指針を提供する。

実験結果
リサーチクエスチョン
- RQ1後段階のトランスフォーマー表現はトークン同一性を保持し、トークンレベルの関係説明をサポートするか。
- RQ2埋め込み空間は人間が解釈できる意味的特徴を信頼性高くデコード可能な形で符号化しているか。
- RQ3疎性、上限、幾何的クラスタリングなどの方法論的アーティファクトは解釈可能性スコアにどの程度影響するか。
- RQ4ロバスト性の制御とアブレーションは注意と埋め込みベースのアプローチの説明力の認識にどのような影響を与えるか。
主な発見
| Norm | Sys | Upper | Shuffle | Shuf-Upper | Rand |
|---|---|---|---|---|---|
| McRae (F1@10) | 0.25 | 0.27 | 0.10 | 0.13 | 0.01 |
| Buchanan (F1@10) | 0.18 | 0.22 | 0.06 | 0.11 | 0.01 |
| Binder (rho) | 0.74 | 0.90 | 0.30 | 0.59 | 0.01 |
- 注意ベースの説明は上流の位置と混ざるにつれて深い層でトークン同一性を失う。
- 注意の可視化はトークン同一性が崩れていても見かけ上の構造を保持するため、本物の関係説明としての利用を妨げる。
- 埋め込みベースの特性推定は、シャッフル・破損・ランダムな特徴上でも高い予測スコアを示し、意味内容よりデータセットの幾何学性と疎性に動機づけられる。
- Neighborhood分析は方法が本当に意味的デコードよりも幾何学的類似性を捉えていることを示唆する。
- 方法論的な上限とアブレーションは、多くの解釈可能性の主張がデータとパイプラインのアーティファクトであり、内部的な意味知識の証拠ではないことを示す。
- Negativeな結果は、特に普及的なエッジコンピューティング文脈での展開を念頭に、解釈可能性研究における明示的な仮定検証の必要性を強調する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。