Skip to main content
QUICK REVIEW

[論文レビュー] Ranked Reward: Enabling Self-Play Reinforcement Learning for Combinatorial Optimization

Alexandre Laterre, Yunguan Fu|arXiv (Cornell University)|Jul 4, 2018
Artificial Intelligence in Games参考文献 18被引用数 39
ひとこと要約

本論文は、エピソード間のエージェント性能をランク付けすることで相対的報酬信号を生成する、新しい強化学習アルゴリズムであるRanked Reward (R2) を導入する。この手法により、単一プレイヤーの組合せ最適化問題において自己対戦に類似した学習が可能になる。R2は2次元および3次元のボックスパッキング問題において、ヒューリスティック法、MCTS、整数プログラミングソルバーを上回り、大規模なインスタンスにおいてGurobiを15%上回る性能を達成した。75パーセンタイルのランク閾値を用いる場合が特に優れた性能を示した。

ABSTRACT

Adversarial self-play in two-player games has delivered impressive results when used with reinforcement learning algorithms that combine deep neural networks and tree search. Algorithms like AlphaZero and Expert Iteration learn tabula-rasa, producing highly informative training data on the fly. However, the self-play training strategy is not directly applicable to single-player games. Recently, several practically important combinatorial optimisation problems, such as the travelling salesman problem and the bin packing problem, have been reformulated as reinforcement learning problems, increasing the importance of enabling the benefits of self-play beyond two-player games. We present the Ranked Reward (R2) algorithm which accomplishes this by ranking the rewards obtained by a single agent over multiple games to create a relative performance metric. Results from applying the R2 algorithm to instances of a two-dimensional and three-dimensional bin packing problems show that it outperforms generic Monte Carlo tree search, heuristic algorithms and integer programming solvers. We also present an analysis of the ranked reward mechanism, in particular, the effects of problem instances with varying difficulty and different ranking thresholds.

研究の動機と目的

  • 自己対戦強化学習の利点(従来は2人対戦ゲームに限定されていた)を、単一プレイヤーの組合せ最適化問題へ拡張すること。
  • 専門家データや高コストなソルバーに依存しない、スケーラブルで汎用的なNP困難最適化問題の手法の欠如を是正すること。
  • 相対的パフォーマンスランクを通じて情報的で適応可能な監督を提供する学習カリキュラムを設計し、競争的自己対戦を模倣すること。
  • さまざまなランク閾値がボックスパッキングタスクにおける学習の安定性と解の質に与える影響を評価すること。

提案手法

  • R2はボックスパッキング問題を単一プレイヤーのマルコフ決定過程(MDP)として定式化し、方策の改善にモンテカルロツリー探索(MCTS)を用いることで、深層強化学習を可能にする。
  • 深層ニューラルネットワークを用いて方策関数および価値関数を推定し、大きな行動空間においてもサンプル効率の高い学習を実現する。
  • コアなイノベーションは、ランク付き報酬(R2)機構であり、最近のエピソード報酬をランク付けし、上位α%のエピソードにのみ1.0の報酬を、それ以外には0.0を割り当てることで相対的パフォーマンス信号を生成する。
  • アルゴリズムは過去のエピソードを保持するリプレイバッファを維持し、定期的に現在のパフォーマンス分布に基づいて報酬を再ランク付けすることで、時間とともに適応するカリキュラムを構築する。
  • 本手法は、アイテム数(10〜50)が変動する2次元および3次元ボックスパッキング問題に適用され、固定されたネットワークアーキテクチャと探索ボーナス付きMCTSが使用される。
  • ランク閾値α(例:50%、75%、90%)は、相対的相手の難易度を制御する。α値が高いほど、正の報酬を得るのが難しくなり、学習圧力が高まる。

実験結果

リサーチクエスチョン

  • RQ1外部の相手や専門家データが存在しない単一プレイヤーの組合せ最適化問題において、自己対戦に類似した報酬信号を効果的に合成できるか?
  • RQ2ボックスパッキングタスクにおける学習の安定性と収束速度に、ランク閾値αの選択がどのように影響するか?
  • RQ3R2アルゴリズムは、MCTS、ヒューリスティック法、整数プログラミングソルバーといった既存のベースラインを、解の質とスケーラビリティの観点で上回るか?
  • RQ4特に高次元パッキングシナリオにおいて、R2メカニズムはさまざまな難易度やインスタンスサイズの問題に対してどのように性能を発揮するか?
  • RQ5報酬ランク付けメカニズムにおける異なるパーセンタイル閾値(例:50% vs. 75% vs. 90%)を用いる場合、学習速度と最終的パフォーマンスのトレードオフはどのようなものか?

主な発見

  • R2はランクフリーなベースライン、MCTS、Legoヒューリスティック、バリア関数付き線形計画法を、2次元および3次元ボックスパッキング問題の両方で上回った。
  • 75パーセンタイルのランク閾値を用いる場合、R2は平均でGurobiソルバーを6%以上上回り、50個のアイテムを含む大規模インスタンスでは最大15%の向上を達成した。
  • 75%のランクケースは、学習速度と安定性の最良のバランスを達成しており、最適解は一貫して特定され、準最適解は正のフィードバックループからほとんど排除された。
  • 50%の閾値は、半数のバッファが品質にかかわらず1.0の報酬を受け取るため、準最適解に対する過剰な正のフィードバックが原因で収束が遅くなった。
  • 90%の閾値は、正のフィードバックが希薄なため収束が遅く、平均より著しく優れたパフォーマンスを発揮した場合にのみ学習が可能になるため、最終的なパフォーマンスが弱くなった。
  • 報酬分布の分析から、高い閾値(75%および90%)は初期段階での改善が速いが、90%は不安定性と低報酬ゲームの残存を引き起こし、最終的なパフォーマンスを阻害することが分かった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。