[論文レビュー] Query as Anchor: Scenario-Adaptive User Representation via Large Language Model
論文は Query-as-Anchor (Q-Anchor) を提案する。これは階層型マルチモーダルエンコーダとデュアルタワーLLMを用い、ソフトプロンプト調整とKVキャッシュ加速推論で特定の状況に適応するダイナミックな、クエリ認識型のユーザー表現フレームワークである。Alipay ベンチマークで最先端の結果を示し、オンラインA/Bテストを通じたデプロイを検証している。
Industrial-scale user representation learning requires balancing robust universality with acute task-sensitivity. However, existing paradigms primarily yield static, task-agnostic embeddings that struggle to reconcile the divergent requirements of downstream scenarios within unified vector spaces. Furthermore, heterogeneous multi-source data introduces inherent noise and modality conflicts, degrading representation. We propose Query-as-Anchor, a framework shifting user modeling from static encoding to dynamic, query-aware synthesis. To empower Large Language Models (LLMs) with deep user understanding, we first construct UserU, an industrial-scale pre-training dataset that aligns multi-modal behavioral sequences with user understanding semantics, and our Q-Anchor Embedding architecture integrates hierarchical coarse-to-fine encoders into dual-tower LLMs via joint contrastive-autoregressive optimization for query-aware user representation. To bridge the gap between general pre-training and specialized business logic, we further introduce Cluster-based Soft Prompt Tuning to enforce discriminative latent structures, effectively aligning model attention with scenario-specific modalities. For deployment, anchoring queries at sequence termini enables KV-cache-accelerated inference with negligible incremental latency. Evaluations on 10 Alipay industrial benchmarks show consistent SOTA performance, strong scalability, and efficient deployment. Large-scale online A/B testing in Alipay's production system across two real-world scenarios further validates its practical effectiveness. Our code is prepared for public release and will be available at: https://github.com/JhCircle/Q-Anchor.
研究の動機と目的
- 静的でタスク非依存のユーザー埋め込みと多様な下流シナリオの間の不一致を解消する。
- 多モーダル挙動とユーザー理解意味論を結ぶスケーラブルな事前学習データセット(UserU)を開発する。
- 異なる下流タスクの下で挙動プロファイルを再アンカーするクエリ条件付き埋め込みメカニズムを作成する。
- KVキャッシュ加速デプロイによる効率的なマルチシナリオ推論を可能にする。
- ソフトプロンプト調整と識別的構造化により、事前学習とビジネス固有ロジックを橋渡しする。
提案手法
- 将来の挙動予測とUserQA監督を組み合わせたUserU事前学習データを構築する。
- マルチモーダル信号から多粒度のユーザー表現を生成する階層的粗から細 Encoderを設計する。
- デュアルタワーのQuery-as-Anchorを実装する:アンカータワーはクエリ認識埋め込みを生成し、セマンティックタワーはターゲット回答をモデル化する。
- InfoNCEに基づく整列とNext-Token Prediction lossを含む結合対照学習–生成目的で最適化する。
- クラスターベースのSoft Prompt Tuningとプロトタイプを適用し、状況適応のための識別的潜在構造を強制する。
- 階層的ユーザー接頭の事前計算とキャッシュにより、複数クエリへの再アンカーを効率的に行えるKVキャッシュ加速推論を実現する。

実験結果
リサーチクエスチョン
- RQ1自然言語クエリで条件付けられたシナリオ適応型ユーザー埋め込みを単一モデルで生成できるか。
- RQ2クエリアンカ付き階層エンコーディングは産業用ユーザー表現のドメイン横断一般化を改善するか。
- RQ3ソフトプロンプト調整は完全なファインチューニングなしに一般的な事前学習と下流ビジネスロジックを整合させられるか。
- RQ4KVキャッシュ対応推論はリアルタイムのマルチシナリオ埋め込み生成に実現可能か。
- RQ5オフライン・オンライン評価はエンゲージメント、リスク、マーケティングタスク全般でどんな利得を示すか。
主な発見
- Q-Anchor はプロンプト調整により、10件のAlipayシナリオでベースラインを上回る平均AUCとKSを達成し、平均で AUC 0.8225、KS 0.5267。
- プロンプト調整されたQ-Anchor は基盤バージョンや一般埋め込みを一貫して上回り、特にマーケティングの Brand とリスクの Money を改善。
- データ規模は埋め込み品質においてモデルサイズより優位であることが示され、最適結果は backbone 0.5B と pretraining 50k ステップで得られる。
- ソフトプロンプトはシナリオ特有の注意喚起のシフトを生み出し、モダリティの再アンカー化を解釈可能にする(例:Takeout Interest で Bill の注意、Ant Forest で SPM の注意が上がる。)。
- KVキャッシュ加速推論は、産業デプロイメントで複数の下流クエリへの再アンカーをわずかな追加遅延で実現可能にする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。