[論文レビュー] How Context Shapes Truth: Geometric Transformations of Statement-level Truth Representations in LLMs
その論文は、文脈が真理表現をLLMの活性化にどのように再構成するかを、4つのモデルと4つのデータセットに渡る真理ベクトルの方向変化と大きさの変化を測定することで特徴づけ、3相パターンと文脈タイプの効果を明らかにします。
Large Language Models (LLMs) often encode whether a statement is true as a vector in their residual stream activations. These vectors, also known as truth vectors, have been studied in prior work, however how they change when context is introduced remains unexplored. We study this question by measuring (1) the directional change ($θ$) between the truth vectors with and without context and (2) the relative magnitude of the truth vectors upon adding context. Across four LLMs and four datasets, we find that (1) truth vectors are roughly orthogonal in early layers, converge in middle layers, and may stabilize or continue increasing in later layers; (2) adding context generally increases the truth vector magnitude, i.e., the separation between true and false representations in the activation space is amplified; (3) larger models distinguish relevant from irrelevant context mainly through directional change ($θ$), while smaller models show this distinction through magnitude differences. We also find that context conflicting with parametric knowledge produces larger geometric changes than parametrically aligned context. To the best of our knowledge, this is the first work that provides a geometric characterization of how context transforms the truth vector in the activation space of LLMs.
研究の動機と目的
- LLMの残差ストリームにおける命題レベルの真理表現(真理ベクトル)の幾何学的構造が文脈によって変化するかを調査する。
- 文脈が追加されたときの方向変化(角度θ)と大きさの変化を定量化する。
- 文脈タイプ(関連 vs ランダム)とモデル規模がこれらの幾何学的変換に与える影響を examiningする。
- 4つの指示調整済みLLMと多様なデータセットを横断して、これらのパターンの一貫性を評価する。
提案手法
- 各層ごとに、最初の生成トークンでの真偽残差ストリームの差を真理ベクトルとして定義する。
- 層ごとに文脈なしの真理ベクトルと文脈豊富な真理ベクトルの間の方向変化θを計算する。
- 層ごとに、文脈豊富な真理ベクトルのノルム二乗と文脈なし真理ベクトルのノルム二乗の比として相対的大きさを計算する。
- 4つのモデル(3B–12B)と4つのデータセットを対象に、4つのプロンプトと制御された文脈変化を用いて分析する。
- 関連文脈とランダムまたは無関係な文脈を比較して感度を評価する。
- 観察された差の統計的有意性を非パラメトリックのWilcoxon検定で評価する。
![Figure 1: Overview of our approach (1) For a statement $k$ , we generate 4 inputs by varying the [Selected Choice] and presence of context. The LLM is instructed to generate the completion based on the [Selected Choice]. (2) We extract the residual stream activations for generating the first token a](https://ar5iv.labs.arxiv.org/html/2601.06599/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1文脈を追加すると、層を跨るLLM活性化の命題レベルの真理ベクトルの方向はどのように変化するか?
- RQ2文脈は真偽のベクトル分離の大きさにどのような影響を与えるか?
- RQ3大規模モデルほど方向変化を用いて関連文脈と無関連文脈を区別し、 smaller モデルはむしろ大きさの違いに依存するのか?
- RQ4パラメトリック知識と一致する文脈と、知識と衝突する文脈では幾何学的影響が異なるのか?
- RQ5文脈効果はデータセットと文脈タイプ(関連 vs ランダム)によって一貫しているか?
主な発見
- 真理ベクトルは3相の方向変化を示す:初期層でほぼ直交、中間層で収束、後期層で安定化または増加。
- 文脈を追加すると一般に真理ベクトルの大きさが増加し、真偽表現の分離が活性化空間で強化される。
- 大規模モデルは主に関連文脈と非関連文理を区別する際に方向変化を使用し、より小さなモデルは大きさの違いに依存する。
- パラメトリック知識と矛盾する文脈は、パラメトリック知識と一致する文脈より大きな幾何学的変化を誘発する。
- 関連文脈は、ほとんどのモデル‑データセットペアにおいて、方向または大きさの変化をより大きく引き起こす。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。