Skip to main content
QUICK REVIEW

[論文レビュー] Enhancing Bandit Algorithms with LLMs for Time-varying User Preferences in Streaming Recommendations

Chenglei Shen, Yi Zhan|arXiv (Cornell University)|Feb 8, 2026
Advanced Bandit Algorithms Research被引用数 0
ひとこと要約

HyperBandit+ は時系列を意識したハイパーネットワークと LLM ベースのウォームスタートを導入し、ストリーミング推奨における時間変化するユーザ好みに対応し、サブ線形の後悔保証と高い実証性能を実現する。

ABSTRACT

In real-world streaming recommender systems, user preferences evolve dynamically over time. Existing bandit-based methods treat time merely as a timestamp, neglecting its explicit relationship with user preferences and leading to suboptimal performance. Moreover, online learning methods often suffer from inefficient exploration-exploitation during the early online phase. To address these issues, we propose HyperBandit+, a novel contextual bandit policy that integrates a time-aware hypernetwork to adapt to time-varying user preferences and employs a large language model-assisted warm-start mechanism (LLM Start) to enhance exploration-exploitation efficiency in the early online phase. Specifically, HyperBandit+ leverages a neural network that takes time features as input and generates parameters for estimating time-varying rewards by capturing the correlation between time and user preferences. Additionally, the LLM Start mechanism employs multi-step data augmentation to simulate realistic interaction data for effective offline learning, providing warm-start parameters for the bandit policy in the early online phase. To meet real-time streaming recommendation demands, we adopt low-rank factorization to reduce hypernetwork training complexity. Theoretically, we rigorously establish a sublinear regret upper bound that accounts for both the hypernetwork and the LLM warm-start mechanism. Extensive experiments on real-world datasets demonstrate that HyperBandit+ consistently outperforms state-of-the-art baselines in terms of accumulated rewards.

研究の動機と目的

  • ストリーミング推奨における時間変化するユーザ好みの取り扱いを動機づける。
  • 時間期間依存の報酬を時変ユーザ好みマトリクスとしてモデル化する。
  • LLM ベースのオフラインのウォームスタートを通じた探索–活用の Cold-start を強化する。
  • 低ランクのハイパーネットワークパラメータ化による学習の複雑さを低減する。
  • 提案フレームワークの理論的後悔保証を提供する。

提案手法

  • 時系列期間を意識したハイパーネットワークを用いてユーザ好みマッピングを生成するための HyperBandit+ を導入する。
  • 真の時変報酬を r*(u,a,p) = c_a^T Theta_p^* c_u と定義し、期間ごとに Theta_p を学習する。
  • latentFeatures と observedFeatures をそれぞれ増強するために LLM Start および LLM-Enhanced Embedding を採用する。
  • ハイパーネットワーク出力を低ランク因子分解してオンライン学習を加速する。
  • オフライン相には Euler Embedding と LLM-Enhanced Embedding によるサイド情報を含める;LLM Start はウォームスタートのためのデータをシミュレートする。
  • ポリシーをオンラインでリッジ回帰の閉形式解を用いて latentFeatures を更新する。

実験結果

リサーチクエスチョン

  • RQ1ストリーミングコンテキストバンディットにおいて周期的/時間変動するユーザ好みを明示的にモデル化し適応するにはどうするべきか。
  • RQ2ハイパーネットワークは時間期間特有のユーザ好みマトリクスを生成して推奨精度を改善できるか。
  • RQ3LLM ベースのデータ拡張は初期段階の探索–活用の課題を緩和する有意なウォームスタートを提供するか。
  • RQ4時系列対応のハイパーネットワークと LLM ベースのウォームスタートを取り込むバンディット方針の理論的後悔保証は何か。

主な発見

  • HyperBandit+ はハイパーネットワークと LLM ウォームスタート機構を考慮したサブ線形の後悔を達成する。
  • 実世界データセットでの実証結果は HyperBandit+ が累積報酬で最先端のベースラインを一貫して上回ることを示す。
  • 低ランク因子分解は性能を損なうことなく学習複雑さを低減する。
  • LLM Start は有効なオフラインデータ拡張を提供し、初期オンラインの探索–活用効率を改善する。
  • LLM-Enhanced Embedding はユーザとアイテム表現を拡張してサイド情報の品質を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。