QUICK REVIEW

[論文レビュー] Online learning in repeated auctions

Jonathan Weed, Vianney Perchet|arXiv (Cornell University)|Nov 18, 2015

Advanced Bandit Algorithms Research参考文献 48被引用数 38

ひとこと要約

この論文は、勝利後にのみ良い価値を学習できる、バンドイットフィードバックを伴う繰り返しのヴィクラリー・オークションにおける入札者向けのオンライン学習戦略を開発する。確率的設定では対数的リグレットを達成し、敵対的設定では$ ilde{O}(\text{poly}(\text{リグレット}))$の非線形リグレットを達成する。また、一致するミニマックス下界を確立し、この文脈における入札者に対する最初の完全な戦略セットを提供する。

ABSTRACT

Motivated by online advertising auctions, we consider repeated Vickrey auctions where goods of unknown value are sold sequentially and bidders only learn (potentially noisy) information about a good's value once it is purchased. We adopt an online learning approach with bandit feedback to model this problem and derive bidding strategies for two models: stochastic and adversarial. In the stochastic model, the observed values of the goods are random variables centered around the true value of the good. In this case, logarithmic regret is achievable when competing against well behaved adversaries. In the adversarial model, the goods need not be identical and we simply compare our performance against that of the best fixed bid in hindsight. We show that sublinear regret is also achievable in this case and prove matching minimax lower bounds. To our knowledge, this is the first complete set of strategies for bidders participating in auctions of this type.

研究の動機と目的

勝利後にのみ部分的フィードバックが得られる繰り返しの2次入札（ヴィクラリー）オークションにおける入札戦略の設計。
学習問題を、現実の広告オークションのダイナミクスを反映する、制限付きフィードバックを伴うオンラインバンドイット設定としてモデル化する。
確率的および敵対的モデルにおけるリグレットバウンドを導出し、後悔の観点から最良の固定入札との性能を比較する。
提案された戦略の最適性を示すためにミニマックス下界を確立する。
特に共変数、複雑なベンチマーク、および上界と下界の間のギャップに関する、オンライン学習におけるオークション分野の未解決問題に取り組む。

提案手法

値と入札が$[0,1]$に有界な繰り返しのヴィクラリー・オークションをモデル化し、入札者は勝利後にのみ結果を観測する。
バンドイットフィードバックを伴うオンライン学習を適用：入札者は自身の勝利／敗北および支払いのみを観測し、他の入札は分からない。
2つのモデルに対する戦略を提案する：確率的（真の価値を中心にノイズのある観測）と敵対的（任意で、同分布でない商品を含む可能性がある）。
KLダイバージェンスと情報理論的議論を用いて、特に2人の敵対者を用いた構成により、リグレットの下界を導出する。
段階的解析を用い、適応的敵対戦略を導入してタイトなミニマックス下界を証明し、対数的ギャップスケーリングを活用する。
フビニの定理を適用し、内部の確率的要素を平均化することで、決定的戦略から一般の確率的戦略へのバウンドの拡張を行う。

実験結果

リサーチクエスチョン

RQ1部分的（バンドイット）フィードバックしか得られない繰り返しのヴィクラリー・オークションにおける、効果的な入札戦略を設計できるか？
RQ2観測値が真の価値のノイズのある推定値である確率的モデルでは、どのようなリグレットバウンドが達成可能か？
RQ3商品や価値がラウンドごとに任意に変化する可能性がある敵対的モデルでは、非線形リグレットを達成できるか？
RQ4この設定におけるリグレットのミニマックス下界は何か？そして、提案された戦略の上界と一致するか？
RQ5上界と下界のギャップ（例：$ ilde{O}(\text{poly}(\text{リグレット}))$ 対 $ ilde{\theta}(\text{poly}(\text{リグレット}))$）はどのように生じるのか？そして、それはタイトか？

主な発見

確率的モデルでは、良好に振る舞う敵対者に対して、対数的リグレット$O(\text{poly}(\text{リグレット}))$を達成可能である。
敵対的モデルでは、非線形リグレット$O(\tilde{T}^{1/2})$を達成可能であり、$\frac{1}{32}\tilde{\theta}(\text{poly}(\text{リグレット}))$の一致するミニマックス下界が存在する。
ミニマックス下界として、$\frac{1}{32}\tilde{\theta}(T^{1/2}\tilde{\theta}(\text{poly}(\text{リグレット})))$が確立され、提案された戦略の最適性が示された。
下界の証明では、段階$i$で最小ギャップ$2^{-i-1}$を保証する再帰的敵対者構成と適応的入札水準を用いる。
上界と下界のギャップが、高々$\tilde{O}(\text{poly}(\text{リグレット}))$であることが示され、上界が改善可能である可能性を示唆する。
解析により、提案された戦略が敵対的設定において対数的要因を除き最適であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。