QUICK REVIEW

[論文レビュー] HiSAC: Hierarchical Sparse Activation Compression for Ultra-long Sequence Modeling in Recommenders

Kun Yuan, Junyu Bi|arXiv (Cornell University)|Feb 24, 2026

Recommender Systems and Techniques被引用数 0

ひとこと要約

HiSACは階層的スパース活性化とソフトルーティング注意を導入して超長いユーザーシーケンスを圧縮し、個別化の興味エージェントを生成、Taobao実運用でCTRを1.65%向上させる。

ABSTRACT

Modern recommender systems leverage ultra-long user behavior sequences to capture dynamic preferences, but end-to-end modeling is infeasible in production due to latency and memory constraints. While summarizing history via interest centers offers a practical alternative, existing methods struggle to (1) identify user-specific centers at appropriate granularity and (2) accurately assign behaviors, leading to quantization errors and loss of long-tail preferences. To alleviate these issues, we propose Hierarchical Sparse Activation Compression (HiSAC), an efficient framework for personalized sequence modeling. HiSAC encodes interactions into multi-level semantic IDs and constructs a global hierarchical codebook. A hierarchical voting mechanism sparsely activates personalized interest-agents as fine-grained preference centers. Guided by these agents, Soft-Routing Attention aggregates historical signals in semantic space, weighting by similarity to minimize quantization error and retain long-tail behaviors. Deployed on Taobao's "Guess What You Like" homepage, HiSAC achieves significant compression and cost reduction, with online A/B tests showing a consistent 1.65% CTR uplift -- demonstrating its scalability and real-world effectiveness.

研究の動機と目的

生産環境で超長いユーザー行動シーケンスの効率的モデリングを動機付ける。
量子化誤差を低減するためのユーザー興味の個別化・多粒度表現を開発する。
階層的ボ voting機構を導入し、ユーザー特有の興味エージェントを疎に活性化する。
長尾の嗜好を保持しつつ履歴を圧縮するSoft-Routing Attentionを提案する。
レイテンシ削減とCTR向上といった産業デプロイメントの利得を示す。

提案手法

マルチモーダルエンコーダとResidual Quantized VAE（RQ-VAE）を用いて履歴を多層の意味識別子にトークン化する。
全体の多層意味ツリーを構築し、階層的ボ votingを適用してユーザー特有の興味エージェントを疎に活性化する。
過去のシグナルを公正化された意味的類似度で集約するためにSoft-Routing Attentionを用い、意味的プロトタイプとランキング埋め込みを組み合わせる。
意味埋め込み（ルーティング用に凍結）と訓練可能なランキング埋め込み（集約用）を分離する。
オンライン遅延と計算コストを削減するためにオフラインの興味エージェント構築とリクエストレベルの圧縮を展開する。
キャッシュ戦略とエンドツーエンドのレイテンシ40%超削減を実現するエンドツーエンドの改善を産業で達成する。

実験結果

リサーチクエスチョン

RQ1ユーザーごとに異なる粒度で、ユーザー特有の興味センターを正確に識別するにはどうするべきか？
RQ2歴史的行動を興味センターに割り当てつつ、長尾信号を保持し、量子化誤差を最小化するにはどうするべきか？
RQ3階層的スパース活性化とソフトルーティング注意は、推薦品質を犠牲にせず超長シーケンスの産業級圧縮を実現できるか？
RQ4実世界の大規模リコメンダシステムにおけるHiSACのデプロイ影響と遅延/コストの利点は何か？

主な発見

HiSACは産業デプロイメントで顕著な圧縮とコスト削減を達成する。
オンラインA/Bテストでは最も強力な従来の圧縮手法に対して一貫して1.65%のCTR向上を示した。
階層的ボ votingはエージェント数を約3分の2に削減し、予測性能のほぼ損失なし。
Soft-Routing Attentionは長尾の顧客興味を保持し、量子化誤差を低減するのを助ける。
意味埋め込みとランキング埋め込みのデカップリングによりコードブックのバイアスを防ぎ、興味の多様性を保持する。
オフラインの興味エージェント構築とリクエストレベルのキャッシングは、正確性を損なうことなくレイテンシを大きく改善（例：エンドツーエンドで約40%削減）できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。