Skip to main content
QUICK REVIEW

[論文レビュー] Do Llamas Work in English? On the Latent Language of Multilingual Transformers

Chris Wendler, Veniamin Veselovsky|arXiv (Cornell University)|Feb 16, 2024
Natural Language Processing Techniques被引用数 7
ひとこと要約

本論文は、多言語Llama-2モデルが内部のピボット言語として英語を使用しているかを、層ごとにロジットレンズを用いて中間潜在状態を分析することで実証的に検証している。

ABSTRACT

We ask whether multilingual language models trained on unbalanced, English-dominated corpora use English as an internal pivot language -- a question of key importance for understanding how language models function and the origins of linguistic bias. Focusing on the Llama-2 family of transformer models, our study uses carefully constructed non-English prompts with a unique correct single-token continuation. From layer to layer, transformers gradually map an input embedding of the final prompt token to an output embedding from which next-token probabilities are computed. Tracking intermediate embeddings through their high-dimensional space reveals three distinct phases, whereby intermediate embeddings (1) start far away from output token embeddings; (2) already allow for decoding a semantically correct next token in the middle layers, but give higher probability to its version in English than in the input language; (3) finally move into an input-language-specific region of the embedding space. We cast these results into a conceptual model where the three phases operate in "input space", "concept space", and "output space", respectively. Crucially, our evidence suggests that the abstract "concept space" lies closer to English than to other languages, which may have important consequences regarding the biases held by multilingual language models.

研究の動機と目的

  • 英語が支配的な学習データから他の言語へ多言語LMが一般化する仕組みの理解を促す。
  • 非英語のプロンプト中に内部潜在表現が英語へピボットするかを暴露する。
  • Llama-2の順伝播中の潜在空間の進化と言語バイアスの特徴づけ。

提案手法

  • 各層の中間潜在から次トークン分布を抽出するためにロジットレンズを適用する。
  • 翻訳、繰り返し、クローズなどの非英語プロンプトを、言語信号を検出するために一意の単一トークン言語ターゲットを持つように設計する。
  • 層ごとの言語確率を分析して、英語または入力言語が支配するフェーズを特定する。
  • 高次元空間における潜在埋め込みの幾何学的分析を行い、順伝播のフェーズ転換を追跡する。
  • 潜在ダイナミクスを解釈するために入力空間、概念空間、出力空間を含む概念モデルを開発する。

実験結果

リサーチクエスチョン

  • RQ1非英語でプロンプトしたとき、Llama-2の中間潜在は内部のピボット言語を示すか。
  • RQ2さまざまなタスクで層を越えて言語確率(中国語 vs 英語)はどう進化するか。
  • RQ3潜在軌道の幾何学的構造は何か、そしてそれは言語バイアスとどう関連するか。
  • RQ4単なる語彙翻訳プロセスというより英語寄りの概念空間の証拠はあるか。

主な発見

  • 潜在状態は3つのフェーズを示す:初期の高エントロピー、中間の英語支配フェーズ、最後に入力言語(中国語)の実現。
  • ロジットレンズは、翻訳およびクローズ課題でターゲット言語トークンを出力する前に英語を経由する迂回を明らかにする。
  • 潜在は他言語より英語に近い概念空間を占め、単純な英語翻訳ステップではなく英語寄りの表現を示唆している。
  • 観察されたピボット様のダイナミクスを説明する3空間概念モデル(入力空間、概念空間、出力空間)。
  • トークンエネルギーと言語確率は、文字通りの逐次翻訳パイプラインではなく意味論的な内部ピボットを支持するようにシフトする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。