[論文レビュー] Multi-objective Contextual Bandit Problem with Similarity Information
本稿では、類似性情報を持つ複数の矛盾する目的が存在するマルチオブジェクティブな文脈的バンディット問題を提示する。報酬は文脈-アーム類似性に関してリプシッツ連続である。著者らは、過去の報酬と位置に基づいて文脈-アーム空間を動的に分割するオンラインアルゴリズムであるPareto Contextual Zooming (PCZ)を提案し、近似的に最適な˜O(T^{(1+dp)/(2+dp)})のパレートレグレットを達成する。ここでdpは、近似的に最適なアーム分布の複雑さを反映するパレートズーミング次元である。
In this paper we propose the multi-objective contextual bandit problem with similarity information. This problem extends the classical contextual bandit problem with similarity information by introducing multiple and possibly conflicting objectives. Since the best arm in each objective can be different given the context, learning the best arm based on a single objective can jeopardize the rewards obtained from the other objectives. In order to evaluate the performance of the learner in this setup, we use a performance metric called the contextual Pareto regret. Essentially, the contextual Pareto regret is the sum of the distances of the arms chosen by the learner to the context dependent Pareto front. For this problem, we develop a new online learning algorithm called Pareto Contextual Zooming (PCZ), which exploits the idea of contextual zooming to learn the arms that are close to the Pareto front for each observed context by adaptively partitioning the joint context-arm set according to the observed rewards and locations of the context-arm pairs selected in the past. Then, we prove that PCZ achieves $ ilde O (T^{(1+d_p)/(2+d_p)})$ Pareto regret where $d_p$ is the Pareto zooming dimension that depends on the size of the set of near-optimal context-arm pairs. Moreover, we show that this regret bound is nearly optimal by providing an almost matching $\Omega (T^{(1+d_p)/(2+d_p)})$ lower bound.
研究の動機と目的
- 複数の、おそらく矛盾する目的が存在する文脈依存報酬の下での逐次的意思決定を扱う。
- 公平性が不可欠な実世界の応用例(例:レコメンデーションシステムや医療診断)をモデル化する。
- 文脈依存パレートフロントの完全な特徴付けを必要としない学習アルゴリズムを構築する。
- 文脈-アームペア間の類似性情報を統合して学習効率を向上させる。
- パレートズーミング次元dpを用いて、パレートフロンティアの固有の複雑さを反映するタイトなレグレットバウンドを確立する。
提案手法
- 文脈固有のパレートフロンティアからの距離の合計として定義される、文脈的パレートレグレットという新たな性能指標を提案する。
- 観測された報酬と選択履歴に基づいて、関連する文脈-アーム類似性空間を動的に分割するPareto Contextual Zooming (PCZ)アルゴリズムを導入する。
- 報酬の信頼区間とUCBスタイルの探索を用いて、マルチオブジェクティブな設定における活用と探索のバランスを図る。
- 各ボールが類似性空間内の領域を表すボールベースの分割方式を採用し、選択の対象となるのは非優位でないボールのみとする。
- 期待報酬関数のリプシッツ連続性を活用し、近接する文脈-アームペアが類似した報酬を持つことを保証する。
- ボールの階層的クラスタリングを用い、不確実性が高く、かつパレート改善の可能性が大きい領域を動的に精緻化する。
実験結果
リサーチクエスチョン
- RQ1類似性情報を持つマルチオブジェクティブな文脈的バンディット設定において、オンライン学習アルゴリズムはサブラインアクスパレートレグレットを達成できるか?
- RQ2パレートフロンティアの複雑さ(パレートズーミング次元dpで測定)は、レグレットバウンドにどのように影響するか?
- RQ3完全なパレートフロンティアの特徴付けを避けても、最適なレグレットを達成できるか?
- RQ4提案されたレグレットバウンド˜O(T^{(1+dp)/(2+dp)})はほぼ最適であり、下界によって一致するか?
- RQ5推定されたパレートフロンティアから公平にサンプリングすることで、目的間の公平性をどのように確保するか?
主な発見
- PCZアルゴリズムは、高確率でパレートレグレットバウンド˜O(T^{(1+dp)/(2+dp)})を達成する。ここでdpはパレートズーミング次元である。
- 論文では、対数要因を除いて、下界Ω(T^{(1+dp)/(2+dp)})を確立することで、このレグレットバウンドがほぼ最適であることを示している。
- アルゴリズムはパレートフロンティアの完全な知識を必要とせず、適応的分割によりフロンティア付近の領域に焦点を当てて効果的に学習する。
- 期待報酬関数が類似性空間に関してリプシッツ連続であるという仮定の下で、性能保証が成り立つ。
- 推定されたパレートフロンティアに属するアームは、特定の目的に偏ることなく公平に選択される。
- 理論的分析により、レグレットが文脈-アーム空間の全次元数ではなく、dpが捉える問題の固有の複雑さに依存することが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。