QUICK REVIEW

[論文レビュー] Learning Prices for Repeated Auctions with Strategic Buyers

Kareem Amin, Afshin Rostamizadeh|arXiv (Cornell University)|Nov 26, 2013

Advanced Bandit Algorithms Research参考文献 17被引用数 74

ひとこと要約

本稿は、購入者が購入を延期することでコストを最小化するために戦略的に行動する繰り返しの提示価格オークションにおいて、戦略的後悔の枠組みを導入する。本稿では、購入者が将来の余剰を割引く場合に、無戦略的後悔を達成する売り手のアルゴリズムを提案し、その場合、割引がないとこのようなアルゴリズムは不可能であることを証明している。この場合、戦略的後悔は線形に増大する。

ABSTRACT

Inspired by real-time ad exchanges for online display advertising, we consider the problem of inferring a buyer's value distribution for a good when the buyer is repeatedly interacting with a seller through a posted-price mechanism. We model the buyer as a strategic agent, whose goal is to maximize her long-term surplus, and we are interested in mechanisms that maximize the seller's long-term revenue. We define the natural notion of strategic regret --- the lost revenue as measured against a truthful (non-strategic) buyer. We present seller algorithms that are no-(strategic)-regret when the buyer discounts her future surplus --- i.e. the buyer prefers showing advertisements to users sooner rather than later. We also give a lower bound on strategic regret that increases as the buyer's discounting weakens and shows, in particular, that any seller algorithm will suffer linear strategic regret if there is no discounting.

研究の動機と目的

戦略的購入者が購入を延期することで価格を操作する繰り返し提示価格オークションにおいて、従来の無後悔バンディットアルゴリズムの限界を解決すること。
戦略的後悔（購入者の操作による収益損失）を、正直に行動する購入者を基準として定義・分析すること。
戦略的購入者行動に対して耐性があり、妥当な仮定の下で無戦略的後悔を達成する売り手学習アルゴリズムを設計すること。
購入者が将来の余剰を割引かない場合、戦略的後悔が線形に増大することを示す理論的下界を確立することにより、学習のためには割引が必要であることを証明すること。

提案手法

売り手の収益と、購入者が正直に行動し、最適な固定価格が常に使用された場合の収益との差として、戦略的後悔の新しい概念を導入する。
購入者を長期的余剰を最大化する戦略的エージェントとしてモデル化し、売り手の学習アルゴリズムを観測・最適化することを仮定する。
過去の相互作用に基づく重み付き経験的分布に基づいて価格を選択する確率的戦略を用いる。重みは時間とともに減少する。
時間に依存する重み列 $\gamma_t$ を用いて割引メカニズムを適用し、$\gamma_t \in [0,1]$ として、購入者が即時の余剰を遅延した余剰よりも好むことをモデル化する。
割引がある場合、売り手の戦略的後悔が、元のバンディットアルゴリズムの標準的後悔によって有界であることを証明し、無戦略的後悔を保証する。
単一ショットのインcentive-compatibleメカニズムへの還元を用い、定義された枠組みの下で売り手の戦略が合理的かつインcentive-compatibleであることを示す。

実験結果

リサーチクエスチョン

RQ1購入者が戦略的で、合計コストを最小化するために行動する繰り返し提示価格オークションにおいて、売り手は最適価格を学習できるか？
RQ2売り手が無戦略的後悔を達成するためには、購入者行動（例：割引）にどのような条件が必要か？
RQ3この設定において、標準的無後悔バンディットアルゴリズムの性能に、戦略的購入者行動がどのように影響するか？
RQ4戦略的操作に対して耐性がありながら、低後悔を達成できる売り手アルゴリズムを設計することは可能か？
RQ5購入者が将来の余剰を割引かない場合、この設定における学習の根本的限界は何か？

主な発見

本稿は、購入者が将来の余剰を割引く場合、適切に設計された学習アルゴリズムを用いることで、売り手が無戦略的後悔を達成できることを確立している。
購入者が将来の余剰を割引かない（短視眼的である）場合、いかなる売り手アルゴリズムも線形な戦略的後悔を被るため、割引が学習のための必要条件であることが証明される。
戦略的後悔は、元のバンディットアルゴリズムの標準的後悔によって有界であり、戦略的行動が後悔をベースラインを上回って増大させないことを示している。
提案されたメカニズムは、売り手の戦略が合理的かつインcentive-compatibleであることを保証しており、購入者の余剰最大化行動と整合している。
理論的分析により、購入者の割引がない場合、無後悔学習は不可能であり、戦略的後悔の根本的下界が確立されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。