Skip to main content
QUICK REVIEW

[論文レビュー] Reinforcement Learning Applications

Yuxi Li|arXiv (Cornell University)|Aug 19, 2019
Reinforcement Learning in Robotics参考文献 70被引用数 45
ひとこと要約

強化学習の基本と実世界の応用を概説し、推奨システム、コンピュータシステム、エネルギー、金融、医療、ロボティクス、交通、さらに RL を実用化する Horizon のようなプラットフォームに重点を置く。

ABSTRACT

We start with a brief introduction to reinforcement learning (RL), about its successful stories, basics, an example, issues, the ICML 2019 Workshop on RL for Real Life, how to use it, study material and an outlook. Then we discuss a selection of RL applications, including recommender systems, computer systems, energy, finance, healthcare, robotics, and transportation.

研究の動機と目的

  • 複数のドメインにまたがる強化学習とその実践的重要性を紹介。
  • 実世界の展開における成功した RL アプリケーションと現実の課題を議論。
  • 産業界で RL を適用するためのフレームワーク、プラットフォーム、ケーススタディを提示。
  • RL を探究する実務家のための重要な問題、ガイドライン、リソースを強調。

提案手法

  • エージェント、環境、報酬、価値関数、ポリシー最適化を含む RL の概念のハイレベルな概要を提供する。
  • モデルフリーとモデルベースの RL、DQN、A3C、DDPG、TRPO、PPO、ソフトアクター・クリティックなどの深層 RL アルゴリズムを説明。
  • 探索-利用のトレードオフとシム対現実転送を含む RL 展開の実務的考慮事項。
  • 大規模で現実世界のシステムに RL を適用するためのアーキテクチャパターンとプラットフォーム(Decision Service、Horizon)を提示。
  • レコメンダーシステム、コンピュータシステム、エネルギー、金融、医療、ロボティクス、交通などのドメインを通じて RL アプリケーションを説明。

実験結果

リサーチクエスチョン

  • RQ1現実世界の連続意思決定問題に適したコアな RL 手法は何か。
  • RQ2部分的なフィードバックと遅延報酬に対処しつつ、レコメンダーエンジンやデータセンターなどの大規模な生産システムに RL を効果的に展開するにはどうすればよいか。
  • RQ3適用 RL の開発と監視を促進するプラットフォームとベストプラクティスは何か。

主な発見

  • RL は Atari、AlphaGo、StarCraft II、Dota 2 のような問題だけでなく、データセンター冷却などの現実世界のシステムにも適用されている。
  • 文脈バンディットとポリシー評価は、部分的かつ遅延フィードバックのあるレコメンダー風設定でのスケーラブルな実験を可能にする。
  • Horizon や Decision Service のようなオープンソースのプラットフォームは、データ前処理、特徴量正規化、モデル訓練、評価、提供までのエンドツーエンドのパイプラインを提供する。
  • 現実世界の RL 展開は、CTR の上昇 (>25%)、コンテンツ/動画推奨の利益 (>30%)、収益の増加 (18%)、待機時間の削減 (19%) など、意味のある改善を達成できる。
  • 探索と利用、サンプル効率、クレジット割り当て、再現性、安全性など、RL の課題は依然としてあり、積極的に研究されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。