QUICK REVIEW

[論文レビュー] Language Models Represent Space and Time

Wes Gurnee, Max Tegmark|arXiv (Cornell University)|Oct 3, 2023

Language and cultural evolution被引用数 41

ひとこと要約

この論文は、Llama-2とPythiaの言語モデルが空間と時間の線形・マルチスケール表現を学習し、識別可能な空間/時間ニューロンを含むことを示しており、次トークン予測から学習された原始的な世界モデルを示唆している。

ABSTRACT

The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a set of more coherent and grounded representations that reflect the real world. We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individual "space neurons" and "time neurons" that reliably encode spatial and temporal coordinates. While further investigation is needed, our results suggest modern LLMs learn rich spatiotemporal representations of the real world and possess basic ingredients of a world model.

研究の動機と目的

LLMs が表面的な統計を超えた一貫した時空表現を学習するかを調査する。
内部活性化を抽出・分析して、空間座標（緯度/経度）と時刻座標（タイムスタンプ）をマッピングする。
これらの表現の線形性、頑健性、およびスケールとエンティティタイプを横断した一貫性を評価する。
空間と時間に関連する個々のニューロンを特定して、モデルがこれらの特徴を使用していることを示す。

提案手法

空間と時間に関連するエンティティの6つのマルチスケールデータセットを構築する（世界、米国、NYC；歴史的人物；美術；ヘッドライン）。
Llama-2とPythiaモデルの層全体で最後のトークンの活性化に対して線形リッジプローブを実行し、実世界の座標（緯度/経度）またはタイムスタンプを予測する。
R^2とスピアマン相関でプローブを評価し、局所的な地理的精度を考慮する近接誤差を使用する。
空間・時間特徴のデコード性を確認するため、非線形プローブ（MLP）と比較して線形性をテストする。
プロンプトを変化させてプローブの性能をデータセット全体で観察することで、プロンプト感度を評価する。
活性化をプローブ方向に射影して、ニューロンの重みを分析することで「space neurons」と「time neurons」を特定する。

Figure 1: Spatial and temporal world models of Llama-2-70b. Each point corresponds to the layer 50 activations of the last token of a place (top) or event (bottom) projected on to a learned linear probe direction. All points depicted are from the test set.

実験結果

リサーチクエスチョン

RQ1LLMs は内部表現に空間・時間情報をエンコードしているか。
RQ2空間と時間の表現は中間層〜後半層の活性化から線形にデコード可能か。
RQ3これらの時空表現はプロンプトの変化に対して頑健で、エンティティタイプを横断して統一されているか。
RQ4LLMの個々のニューロンは空間や時間の座標をエンコードしており、これらの特徴が分散的に使用されていることを示しているか。

主な発見

空間と時間の特徴は、層とスケールを横断した線形プローブで回復可能である。
表現は初期〜中間層で改善し、モデルの中間点付近で頭打ちとなる。一方で大規模モデルほど性能が良い。
非線形プローブは線形プローブに比べてほとんど改善をもたらさず、空間/時間の線形デコード性を支持する。
プロンプトはプローブの性能に制限的な影響を与える一方、ランダムなトークンは性能を低下させることがある；ヘッドラインの後のピリオドトークンは性能を向上させる場合がある。
空間と時間の表現は、都市とランドマークなど異なるエンティティタイプ間で一般化し、個々のニューロンがプローブの方向に一致していることから、これらの特徴が実際に使用されていることを示している。
データをPCAで削減してもプローブは情報を維持し、堅牢で基礎的な時空構造を示唆している。

Figure 2: Out-of-sample $R^{2}$ for linear probes trained on every model, dataset, and layer.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。