Skip to main content
QUICK REVIEW

[论文解读] Thompson Sampling for the MNL-Bandit

Shipra Agrawal, Vashist Avadhanula|arXiv (Cornell University)|Jun 3, 2017
Advanced Bandit Algorithms Research参考文献 22被引用 24
一句话总结

该论文提出了一种基于Thompson Sampling的算法来解决MNL-Bandit问题,其中决策者需从N个物品中选择K个以最大化累积奖励,且在未知多项对数(Multinomial Logit)选择模型参数的情况下进行。该方法通过将Thompson Sampling适配到具有替代效应的组合性、bandit反馈设置中,实现了近乎最优的遗憾边界,并证明了理论遗憾最优性以及出色的实验性能。

ABSTRACT

We consider a sequential subset selection problem under parameter uncertainty, where at each time step, the decision maker selects a subset of cardinality $K$ from $N$ possible items (arms), and observes a (bandit) feedback in the form of the index of one of the items in said subset, or none. Each item in the index set is ascribed a certain value (reward), and the feedback is governed by a Multinomial Logit (MNL) choice model whose parameters are a priori unknown. The objective of the decision maker is to maximize the expected cumulative rewards over a finite horizon $T$, or alternatively, minimize the regret relative to an oracle that knows the MNL parameters. We refer to this as the MNL-Bandit problem. This problem is representative of a larger family of exploration-exploitation problems that involve a combinatorial objective, and arise in several important application domains. We present an approach to adapt Thompson Sampling to this problem and show that it achieves near-optimal regret as well as attractive numerical performance.

研究动机与目标

  • 解决在存在替代效应的情况下,用户选择遵循多项对数(MNL)模型的参数不确定性的序列子集选择问题。
  • 设计一种基于Thompson Sampling的算法,以在具有MNL反馈的组合性bandit设置中高效平衡探索与利用。
  • 建立针对MNL-Bandit问题的近乎最优遗憾边界理论,尽管动作空间呈指数级增长。
  • 通过实验验证展示该算法出色的数值性能,凸显其相较于传统UCB方法的实际优势。
  • 将Thompson Sampling推广至具有结构化反馈的组合优化问题,扩展其在标准多臂老虎机之外的应用范围。

提出的方法

  • 通过维护MNL参数的后验分布并从中采样来选择K个物品的子集,将Thompson Sampling适配到MNL-Bandit问题。
  • 使用贝叶斯更新机制,基于用户在提供的组合包中点击或选择的观测反馈,来改进物品价值的估计。
  • 采用集中不等式和尾部界(如Hoeffding型和Chernoff型)来控制后验采样过程中的估计误差。
  • 通过似然函数中对数项的泰勒级数近似,推导出估计物品价值的高概率置信区间。
  • 提出一种新颖的分析框架,以界定估计值偏离真实值的概率,从而支持遗憾分析。
  • 建立每个物品被采样频率与其导致的估计误差之间的联系,确保充分的探索。

实验结果

研究问题

  • RQ1能否有效将Thompson Sampling适配到具有组合动作集和bandit反馈的MNL-Bandit问题?
  • RQ2所提出的Thompson Sampling变体在MNL-Bandit设置下的理论遗憾性能如何?
  • RQ3在物品之间存在替代效应的情况下,该算法如何平衡探索与利用?
  • RQ4尽管从N个物品中选择K个物品的子集具有组合复杂性,该方法能否实现近乎最优的遗憾边界?
  • RQ5为处理组合bandit中的MNL选择反馈,Thompson Sampling需要哪些关键的结构性调整?

主要发现

  • 所提出的Thompson Sampling算法以高概率实现了O(log T)量级的遗憾边界,与理论下界仅相差对数因子。
  • 该算法确保任意物品价值的估计误差较大的概率被限制在O(1/ρ^m)以内,从而实现紧密的置信区间。
  • 分析表明,该算法通过确保每个物品被足够频繁地采样,从而减少估计误差,维持了充分的探索。
  • 该方法实现了估计值偏离真实值的高概率界:Pr(|v̂_i(ℓ) − v_i| < √(16v̂_i(ℓ)(v̂_i(ℓ)+1)log(ρ+1))/n_i(ℓ)) ≥ 1 − 3/ρ^m。
  • 当估计误差较小时,若v_i ≤ 1,该界可简化为Pr(|v̂_i(ℓ) − v_i| < √(12v_i log(ρ+1))/n_i(ℓ)) ≥ 1 − 3/ρ^m。
  • 该算法在不同参数配置下表现稳健,理论保证在物品价值有界时依然成立。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。