Skip to main content
QUICK REVIEW

[論文レビュー] The Linear Representation Hypothesis and the Geometry of Large Language Models

Kiho Park, Yo Joong Choe|arXiv (Cornell University)|Nov 7, 2023
Natural Language Processing Techniques被引用数 8
ひとこと要約

論文は、入力空間と出力空間の反事実を用いて概念の線形表現を formalize し、埋め込みとアン埋め込みを統一する因果的内積を導入、LLaMA-2 実験で線形概念方向と介入可能性を実証する。

ABSTRACT

Informally, the 'linear representation hypothesis' is the idea that high-level concepts are represented linearly as directions in some representation space. In this paper, we address two closely related questions: What does "linear representation" actually mean? And, how do we make sense of geometric notions (e.g., cosine similarity or projection) in the representation space? To answer these, we use the language of counterfactuals to give two formalizations of "linear representation", one in the output (word) representation space, and one in the input (sentence) space. We then prove these connect to linear probing and model steering, respectively. To make sense of geometric notions, we use the formalization to identify a particular (non-Euclidean) inner product that respects language structure in a sense we make precise. Using this causal inner product, we show how to unify all notions of linear representation. In particular, this allows the construction of probes and steering vectors using counterfactual pairs. Experiments with LLaMA-2 demonstrate the existence of linear representations of concepts, the connection to interpretation and control, and the fundamental role of the choice of inner product.

研究の動機と目的

  • “線形表現” が埋め込み空間(入力)とアン埋め込み空間(出力)で反事実ペアを用いて何を意味するかを formalize する。
  • formally define 概念と解釈(測定)および制御(介入)を定理的に結びつける。
  • 因果的内積を導入・正当化し、因果的に分離可能な概念を直交させ、表現を統一する。
  • 内積の推定方法と probes・ steering vector の構築を実務的に開発する。
  • LLaMA-2 に対する理論の経験的検証:線形概念方向と介入効果を示す。

提案手法

  • 埋め込み空間とアン埋め込み空間の両方で counterfactual 出力 Y(W=w) を用いて概念を二値変数として formalize する。
  • アン埋め込み表現が測定と関連し、埋め込み表現が介入と関連することを証明する。
  • 因果的内積をアン埋め込み空間に導入し、因果的に分離可能な概念を直交させ、アン埋め込みと埋め込み表現の間にライツ同型を構築する。
  • Cov(gamma) を用いた因果的内積の明示的形を提供し、埋め込みとアン埋め込みを整列させる canonical 表現 g と l を取得する方法を示す。
  • 実務的に内積を推定し、 counterfactual ペアから probes と steering vectors を構築する;LLaMA-2(7B)で実験的に検証する。
  • 概念方向が存在し、線形 probes として機能し、介入を可能にし、内積の選択が重要であることを実証する。

実験結果

リサーチクエスチョン

  • RQ1概念が埋め込み空間とアン埋め込み空間で線形に表現されるとは何か。
  • RQ2counterfactual ペアが線形表現を formalize し、測定と介入にどのように結びつくか。
  • RQ3どの内積が意味構造を最も適切に捉え、埋め込み/アン埋め込み表現を統一するか。
  • RQ4実際の LLM で線形概念方向を実証的に検出し、介入を行えるか。

主な発見

  • 概念はアン埋め込み空間の方向として表現され、 counterfactual ワードペアから推定される。
  • 導出された概念方向は埋め込み空間における target 概念の線形 probes(測定)として機能する。
  • 埋め込み表現は介入表現に対応し、 target 概念の分布を制御的に変化させられる。
  • 因果的内積は埋め込みとアン埋め込み表現をライス同型で統一し、データから推定可能(例: Cov(gamma)^{-1})。
  • canonical 表現 g と l は選択した内積の下で埋め込みとアン埋め込みを整列させ、変換後にユークリッドツールを適用可能にする。
  • LLaMA-2 の実験結果は、因果的に分離可能な概念が推定された因果的内積の下で概ね直交することを示し、理論を支持する(ただし一部語彙の曖昧さなど例外もある)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。