QUICK REVIEW

[論文レビュー] LLM-based Embeddings: Attention Values Encode Sentence Semantics Better Than Hidden States

Yeqin Zhang, Yunfei Wang|arXiv (Cornell University)|Feb 2, 2026

Topic Modeling被引用数 0

ひとこと要約

この論文は、LLMのアテンションからの値ベクトルを集約するValue Aggregation（VA）により、隠れ状態のプーリングよりも強力な文エンベディングが得られ、AlignedWVAという強化 variant が訓練なしのLLMエンベディングの最先端結果を達成し、MetaEOLよりエンコードコストが低いことを示す。

ABSTRACT

Sentence representations are foundational to many Natural Language Processing (NLP) applications. While recent methods leverage Large Language Models (LLMs) to derive sentence representations, most rely on final-layer hidden states, which are optimized for next-token prediction and thus often fail to capture global, sentence-level semantics. This paper introduces a novel perspective, demonstrating that attention value vectors capture sentence semantics more effectively than hidden states. We propose Value Aggregation (VA), a simple method that pools token values across multiple layers and token indices. In a training-free setting, VA outperforms other LLM-based embeddings, even matches or surpasses the ensemble-based MetaEOL. Furthermore, we demonstrate that when paired with suitable prompts, the layer attention outputs can be interpreted as aligned weighted value vectors. Specifically, the attention scores of the last token function as the weights, while the output projection matrix ($W_O$) aligns these weighted value vectors with the common space of the LLM residual stream. This refined method, termed Aligned Weighted VA (AlignedWVA), achieves state-of-the-art performance among training-free LLM-based embeddings, outperforming the high-cost MetaEOL by a substantial margin. Finally, we highlight the potential of obtaining strong LLM embedding models through fine-tuning Value Aggregation.

研究の動機と目的

NLPタスクの文レベル表現を動機づけ、autoregressive LLM由来の隠れ状態ベースの埋め込みを批判する。
訓練なしで層とトークン全体の値ベクトルをプールするValue Aggregation（VA）を提案する。
W_Oを用いてVAを残差ストリーム空間へマップするAligned Weighted VA（AlignedWVA）を導入し、内部モデルと整合させる。
MTEBタスク上でLLaMA-2およびQwen-3のバックボーンを跨いだVA/AlignedWVAの有効性を実証する。
埋め込みをさらに向上させるためにVAのファインチューニングの可能性を議論する。

提案手法

マルチヘッドアテンションから各層の値ベクトル v^{l,h}_{n} を定義し、ヘッドを結合して v^{l}_{n} を形成する。
トークンレベルの値を平均プールして層全体のベクトル ᴪ^{l} を得、選択された層集合 S を平均化して VA(x) を形成する。
深部-中間層が強い集約層を選択する層選択戦略を検討する（例：LLaMA-2では深部-中間層、Qwen-3では最後層に近い層）。
AlignedWVAを導入して出力射影 W_O を適用し VA を残差ストリーム空間へマップし、モデル内部と整合させる。
関心の高い重み付きVA（WVA）バリアント（LT、PromptEOL、FutureEOL）をアテンションベースの重みで探索し、素の VA と比較する。
オプションとして、対比学習で VA を微調整する Finetune-VA を提示し、埋め込みの改善を図る。

実験結果

リサーチクエスチョン

RQ1アテンション値ベクトルは文埋め込みの文意味論を最終層の隠れ状態より効果的に符号化するのか？
RQ2訓練が不要な単純な集約（Value Aggregation）は、訓練が多い方法やアンサンブル法と比較して競争力のある、あるいは優れた埋め込みを生み出せるのか？
RQ3VAを残差ストリームと整合させたAlignedWVAは、訓練なしLLM埋め込みの最先端性能を達成するのか？
RQ4層選択が VA の性能に與える影響は、バックボーン（LLaMA-2とQwen-3）ごとにどう異なるのか？
RQ5ファインチューニング VA は、隠れ状態ベースのベースラインより遥かに少ない訓練可能パラメータで実用的な向上をもたらすのか？

主な発見

Model	Dim	Backbone	Clustering	Retrieval	STS	Classification	Reranking	Avg
VA (Full)	4096	Llama-2	32.45	28.65	27.95	52.41	23.52	74.08
VA (Half)	4096	Llama-2	32.45	28.65	27.95	52.41	23.52	74.08
VA	4096	Llama-2	33.13	29.56	30.59	54.58	25.89	45.76
VA (Full)	1024	Qwen-3	26.85	24.65	20.59	58.37	18.69	41.41
AlignedWVA (PromptEOL)	4096	Llama-2	28.82	23.45	31.20	45.31	25.13	83.33
AlignedWVA (FutureEOL)	4096	Llama-2	31.25	26.39	33.82	51.40	25.32	83.38
AlignedWVA (PromptEOL)	4096	Qwen-3	35.56	29.73	48.04	55.44	31.55	83.06
AlignedWVA (FutureEOL)	4096	Qwen-3	33.62	28.03	44.51	62.98	32.04	84.31

VAはLLaMA-2（7B）およびQwen-3（8B）におけるMTEBタスク全体で他の訓練なしLLMベースの埋め込みより優れている。
AlignedWVAは訓練なしLLM埋め込みの最先端性能を達成し、MetaEOLを大きく上回る。
選択した深部-中間層（例：LLaMA-2：層20–27、Qwen-3：層26,27,29,30,31）を用いた VA は、全層プーリングと比べてロバストネスを向上させる。
AlignedWVA（PromptEOL）および（FutureEOL）はMetaEOLを大きく凌駕し、Qwen-3のAlignedWVA（FutureEOL）はMetaEOLを平均で4点以上上回る。
Prompt（PromptEOL、FutureEOL）を用いるWVAバリアントは、LTおよびLTベースのプーリングより顕著に改善し、意味のあるプロンプトの重要性を示す。
Finetune-VA（注意のみ）は、ハミング平均でプールした隠れ状態のファインチューニングと同等の利益を、はるかに少ないパラメータ数で達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。