QUICK REVIEW

[論文レビュー] How Do Decoder-Only LLMs Perceive Users? Rethinking Attention Masking for User Representation Learning

Jiahao Yuan, Yike Xu|arXiv (Cornell University)|Feb 11, 2026

Domain Adaptation and Few-Shot Learning被引用数 0

ひとこと要約

この論文は、注意マスキング戦略（因果的、ハイブリッド、双方向）が、統一的な対比学習フレームワーク内でデコーダ応答型LLMが学習するユーザー表現に与える影響を検討し、因果的から双方向への遷移を最適化するための勾配ガイド付きソフトマスキングを導入する。

ABSTRACT

Decoder-only large language models are increasingly used as behavioral encoders for user representation learning, yet the impact of attention masking on the quality of user embeddings remains underexplored. In this work, we conduct a systematic study of causal, hybrid, and bidirectional attention masks within a unified contrastive learning framework trained on large-scale real-world Alipay data that integrates long-horizon heterogeneous user behaviors. To improve training dynamics when transitioning from causal to bidirectional attention, we propose Gradient-Guided Soft Masking, a gradient-based pre-warmup applied before a linear scheduler that gradually opens future attention during optimization. Evaluated on 9 industrial user cognition benchmarks covering prediction, preference, and marketing sensitivity tasks, our approach consistently yields more stable training and higher-quality bidirectional representations compared with causal, hybrid, and scheduler-only baselines, while remaining compatible with decoder pretraining. Overall, our findings highlight the importance of masking design and training transition in adapting decoder-only LLMs for effective user representation learning. Our code is available at https://github.com/JhCircle/Deepfind-GGSM.

研究の動機と目的

因果的、ハイブリッド、双方向の注意マスキングが実世界データからユーザー表現を学習する際のデコーダーのみLLMに与える影響を調査する。
統一的対比学習フレームワーク内でマスキング戦略間のトレーニング安定性と埋め込み品質を評価する。
因果から双方向への遷移を安定化させ、双方向表現を高めるためにGradient-Guided Soft Masking（GG-SM）を提案する。
Alipayデータを用いた9つの産業的ユーザー認知ベンチマークでGG-SMの有効性を示す。

提案手法

因果、ハイブリッド、双方向の3つのマスキングレジームを備えたデコーダーのみLLMの統一対比学習フレームワーク。
Gradient-Guided Soft Masking（GG-SM）：温暖化期間中に未来のアテンション重みを示唆する勾配ベースの事前ウォームアップで、線形双方向スケジューラの前に適用。
埋め込み作成の2ソース学習データ： (i) 過去のシーケンスと未来の行動を結ぶ規則ベースの行動軌跡、(ii) ハードポジティブマイニングとキャリブレーションを伴うLLM生成QAアライメント。
モーダリティ特有のエンコーダが異種のユーザー信号をLLM埋め込み空間へ変換し、軽量なアダプターを介在；同じデコーダーのみLLMがユーザー視点と回答を処理してデュアルタワー対比学習を行う。
InfoNCEベースの対比目的関数を採用し、インバッチネガティブとマスキングベースの類似度機構で偽ネガティブを低減する。

Figure 1 : Architechure Overview of Our Find-Embedding (w / GGSM).

実験結果

リサーチクエスチョン

RQ1因果的、ハイブリッド、双方向の注意マスクはデコーダーのみLLMで学習されたユーザー埋め込みの品質にどのような影響を与えるか？
RQ2因果的から双方向への遷移は統一トレーニング環境においてトレーニング安定性と表現品質に影響を及ぼすか？
RQ3勾配ガイド付きソフトマスキングの温暖化は、スケジューラのみの遷移と比べて最適化ダイナミクスと最終的な双方向表現を改善するか？
RQ4GG-SM強化埋め込みは、産業界の9つの実世界のユーザー認知タスクで他のベースラインと比較してどの程度性能を発揮するか？

主な発見

Concert	User	MAU	Transit	Power	Food	Movie	Achiev.	Physical	Avg
Oracle	0.5173	0.7219	0.9202	0.5642	0.7638	0.6561	0.6435	0.5415	0.5592	0.6542
w/ Causal	0.5716	0.8313	0.9669	0.6967	0.9678	0.8473	0.7922	0.6054	0.6589	0.7709
w/ Hybrid	0.5748	0.8311	0.9671	0.6951	0.9653	0.8520	0.7913	0.6056	0.6565	0.7710
w/ Hybrid_gq	0.5647	0.8382	0.9665	0.6945	0.9678	0.8528	0.7887	0.6044	0.6582	0.7706
w/ Hybrid_mlp	0.5750	0.8410	0.9667	0.6965	0.9649	0.8484	0.7886	0.6042	0.6608	0.7718
w/ Bidirectional	0.5707	0.8390	0.9673	0.6983	0.9671	0.8505	0.7906	0.6043	0.6607	0.7721
w/ Scheduler	0.5742	0.8419	0.9664	0.6973	0.9688	0.8540	0.7908	0.6056	0.6605	0.7733
w/ GG-SM (Ours)	0.5767	0.8438	0.9674	0.6978	0.9689	0.8554	0.7913	0.6078	0.6615	0.7745

統一フレームワークにおいて双方向マスキングが埋め込み表現品質の中で最も高いことを示す。
因果から双方向への遷移経路は最適化の安定性と埋め込み品質に決定的な影響を与える。
GG-SMは因果・ハイブリッド・スケジューラのみベースラインと比較してトレーニング安定性と最終的な双方向埋め込みを一貫して改善する。
GG-SMは平均AUCを複数の汎用埋め込みより高く達成し、9タスクのユーザー埋め込みベースラインよりも優れている。

Figure 2 : Average AUC performance across 9 downstream tasks under different attention masking strategies (left) and comparison with general embedding, user embedding (right).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。