[論文レビュー] LASER: An Efficient Target-Aware Segmented Attention Framework for End-to-End Long Sequence Modeling
LASERはCompress-then-refineの長大シーケンス注意力フレームワークとSeqVaultインフラを導入し、産業リコメンダーシステムにおけるエンドツーエンドの超長シーケンスモデリングを実現、 production-levelの効率とCTR指標の改善を達成。
Modeling ultra-long user behavior sequences is pivotal for capturing evolving and lifelong interests in modern recommendation systems. However, deploying such models in real-time industrial environments faces a strict "Latency Wall", constrained by two distinct bottlenecks: the high I/O latency of retrieving massive user histories and the quadratic computational complexity of standard attention mechanisms. To break these bottlenecks, we present LASER, a full-stack optimization framework developed and deployed at Xiaohongshu (RedNote). Our approach tackles the challenges through two complementary innovations: (1) System efficiency: We introduce SeqVault, a unified schema-aware serving infrastructure for long user histories. By implementing a hybrid DRAM-SSD indexing strategy, SeqVault reduces retrieval latency by 50% and CPU usage by 75%, ensuring millisecond-level access to full real-time and life-cycle user histories. (2) Algorithmic efficiency: We propose a Segmented Target Attention (STA) mechanism to address the computational overhead. Motivated by the inherent sparsity of user interests, STA employs a sigmoid-based gating strategy that acts as a silence mechanism to filter out noisy items. Subsequently, a lightweight Global Stacked Target Attention (GSTA) module refines these compressed segments to capture cross-segment dependencies without incurring high computational costs. This design performs effective sequence compression, reducing the complexity of long-sequence modeling while preserving critical signals. Extensive offline evaluations demonstrate that LASER consistently outperforms state-of-the-art baselines. In large-scale online A/B testing serving over 100 million daily active users, LASER achieved a 2.36% lift in ADVV and a 2.08% lift in revenue, demonstrating its scalability and significant commercial impact.
研究の動機と目的
- 産業向けリコメンダーにおける超長いユーザー行動シーケンスの効率的なエンドツーエンドモデリングの動機付け。
- I/Oと二乗注意力によるレイテンシと計算ボトルネックに対し、システムとアルゴリズムソリューションを提案。
- ランキング性能とビジネスメトリクスを改善する実世界プラットフォーム上でのプロダクション対応コンポーネントを提供。
提案手法
- SeqVaultを導入してDRAM-SSDハイブリッドインデックスを用いてリアルタイムで全ライフサイクルのユーザー履歴へアクセスを提供。
- Segmented Target Attention(STA)を提案し、シグモイドベースのゲーティングによるノイズ抑制機能を備えた長大シーケンスの圧縮を実現。
- Global Stacked Target Attention(GSTA)を開発し、圧縮済みセグメントを再構築してセグメント間依存をモデル化。
- グローバルコンテクスト・顕在信号・最近性を組み合わせるマルチ解像度特徴量フュージョンを採用。
- グローバルアテンションの集約と通信(ZSTD圧縮)に関するデプロイメント志向の最適化を提供。
実験結果
リサーチクエスチョン
- RQ1超長いユーザー履歴をリアルタイムでアクセス・活用してCTR予測を行うにはどうすればよいか。
- RQ2長いシーケンスの計算を削減しつつ、圧縮後再構築の注意力パイプラインは性能を維持できるか。
- RQ3LASERを大規模産業リコメンダーシステムで導入した場合のプロダクション上の成果は何か。
- RQ4 STA、GSTA、フュージョン要素のアブレーションがオフラインAUCとオンライン指標にどのような影響を与えるか。
主な発見
| Method | AUC | AUC Gain | FLOPs |
|---|---|---|---|
| Base | 0.7802 | - | 1.3 × 10^7 |
| DIN | 0.7814 | +0.12% | 3.3 × 10^7 |
| TWIN | 0.7810 | +0.08% | - |
| HSTU | 0.7822 | +0.20% | 3.7 × 10^8 |
| Transformer | 0.7824 | +0.22% | 3.6 × 10^8 |
| LASER | 0.7826 | +0.24% | 4.0 × 10^7 |
- LASERはXiaohongshu Adsで最高のオフラインAUC(0.7826)を達成し、DIN、HSTU、Transformerなどのベースラインを上回る。
- SeqVaultはRocksDBベースのLastNと比較してCPU使用量を約75%削減し、P99レイテンシを>50%改善、ディスク容量の大幅な節約を実現。
- LASERのシグモイドベースのセグメンテーションはsoftmaxより優れており、アブレーションでこれを除くとAUCが0.03ポイント低下。
- アブレーションにより最近性埋め込みが重要な信号であることが示され、最も大きな単一成分のAUC低下は除去時に0.09ポイント。
- LASERのオンラインA/Bテストは productionベースラインに対してADVVと収益の改善をもたらす(具体的なオンラインの利得は要約に記載)。
- LASERのオフラインFLOPsは完全自己注意ベースラインより大幅に低く、深いモデリング能力を提供している(約0.4e8対3.2e8–3.6e8程度)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。