QUICK REVIEW

[論文レビュー] Preference-based Online Learning with Dueling Bandits: A Survey

Viktor Bengs, Róbert Busa‐Fekete|Open access LMU (Ludwid Maxmilian's Universitat Munchen)|Jul 30, 2018

Advanced Bandit Algorithms Research参考文献 152被引用数 24

ひとこと要約

本調査では、数値報酬が利用できない実世界の応用において一般的に使用されるペairwise比較に基づく報酬を学習するdueling banditsを用いた preference-based online learning について包括的な概要を提供する。本調査は、報酬構造に関する仮定に基づいて手法を分類し、サンプル複雑性とレグレットバウンドを分析し、適応性、順位付けモデル、ハイブリッドフィードバック設定における未解決の課題を特定する。

ABSTRACT

In machine learning, the notion of multi-armed bandits refers to a class of online learning problems, in which an agent is supposed to simultaneously explore and exploit a given set of choice alternatives in the course of a sequential decision process. In the standard setting, the agent learns from stochastic feedback in the form of real-valued rewards. In many applications, however, numerical reward signals are not readily available -- instead, only weaker information is provided, in particular relative preferences in the form of qualitative comparisons between pairs of alternatives. This observation has motivated the study of variants of the multi-armed bandit problem, in which more general representations are used both for the type of feedback to learn from and the target of prediction. The aim of this paper is to provide a survey of the state of the art in this field, referred to as preference-based multi-armed bandits or dueling bandits. To this end, we provide an overview of problems that have been considered in the literature as well as methods for tackling them. Our taxonomy is mainly based on the assumptions made by these methods about the data-generating process and, related to this, the properties of the preference-based feedback.

研究の動機と目的

標準的なマルチアームドバンディットが数値報酬を必要とすることによる制限を扱う。これは、実世界の応用においてしばしば入手不可能である。
ペアワイズ比較に基づく報酬が提供される preference-based multi-armed bandits (PB-MAB) の最新動向を調査する。
潜在的な順位生成プロセスおよびフィードバックの性質に関する仮定に基づいて、既存のPB-MAB手法を分類する。
確率的PB-MAB設定における累積レグレットやサンプル複雑性といった理論的性能指標を分析する。
適応性、完全順位付けからの学習、ハイブリッドフィードバック（ペアワイズ＋数値報酬）を含む、未解決の研究課題を特定する。

提案手法

順位構造に関する仮定（例えば、確率的推移性、強い確率的推移性、またはCondorcet勝者の存在）に基づいてPB-MAB手法を分類する。
トップ-k選択、順位付け、ペアワイズフィードバック下での探索と活用のトレードオフを考慮したアルゴリズムをレビューする。
累積レグレットとサンプル複雑性を用いた理論的性能分析を行い、特に定常的な順位分布を有する確率的設定を重点的に検討する。
順位付けに用いられるパラメトリックモデル（Mallowsモデル、Plackett-Luce分布など）とその学習効率への影響を分析する。
オンライン学習における適応性の役割を調査する。ここで学習者は、どのペアワイズ比較を観測するかを制御できる。
Xuら（2020年）の研究に見られるように、duelingフィードバックと実数値報酬を組み合わせたハイブリッド設定を検討し、数値報酬への依存度を低減する。

実験結果

リサーチクエスチョン

RQ1学習者がどのペアワイズ比較を観測するかを能動的に選択できる能力が、ペアワイズバンディットにおける学習パフォーマンスにどの程度向上効果をもたらすか？
RQ2完全または部分的な順位データが利用可能な状況下で、異なるパラメトリックモデル（例：Mallows、Plackett-Luce）における最適順位付けの学習のサンプル複雑性はいかほどか？
RQ3弱い確率的推移性といった最小限の仮定のもとで、ペアワイズバンディットアルゴリズムが低レグレットを達成できるか？
RQ4ノイズや一貫性のない順位がある状況下で、既存の手法はCondorcet勝者またはKemeny共通順位をどの程度正確に特定できるか？
RQ5ハイブリッドバンディット設定において、duelingフィードバックと実数値報酬フィードバックを組み合わせることによる理論的および実用的利点は何か？

主な発見

Mallowsモデル下での最適学習のサンプル複雑性はすでに同定されており、Busa-Feketeら（2019年）によってサンプル最適なアルゴリズムが確立された。
Plackett-Luceやロジスティック線形モデルなどの一般パラメトリック順位付けモデルに対しては、現在のところサンプル最適な学習アルゴリズムは知られていない。
ペアワイズ不一致を最小化するKemeny共通順位はNP困難に属するが、定数倍近似解法やPTASが存在する。
適応的サンプリング（学習者が比較するペアを選択可能）は、学習効率の向上をもたらす可能性があるが、その理論的影響はまだほとんど調査されていない。
Xu ら（2020年）の研究で示されたように、duelingフィードバックと実数値報酬フィードバックを併用するハイブリッドバンディット設定では、必要なプル回数やデュエル回数を削減できる。
関心が高まっているにもかかわらず、PB-MABアルゴリズムの包括的なコードリポジトリは存在しないが、duelpyは最近、Python実装を提供する試みである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。