[論文レビュー] Horizon: Facebook's Open Source Applied Reinforcement Learning Platform
Horizonは、Facebookのオープンソースのエンドツーエンドプラットフォームで、大規模な実世界データセットでの適用強化学習を実行し、データ前処理、特徴量正規化、データ理解、マルチノード学習、反事実ポリシー評価、最適化されたサービング、そしてプロダクション品質のデプロイを提供します。
In this paper we present Horizon, Facebook's open source applied reinforcement learning (RL) platform. Horizon is an end-to-end platform designed to solve industry applied RL problems where datasets are large (millions to billions of observations), the feedback loop is slow (vs. a simulator), and experiments must be done with care because they don't run in a simulator. Unlike other RL platforms, which are often designed for fast prototyping and experimentation, Horizon is designed with production use cases as top of mind. The platform contains workflows to train popular deep RL algorithms and includes data preprocessing, feature transformation, distributed training, counterfactual policy evaluation, optimized serving, and a model-based data understanding tool. We also showcase and describe real examples where reinforcement learning models trained with Horizon significantly outperformed and replaced supervised learning systems at Facebook.
研究の動機と目的
- シミュレーション環境ではなく、実世界の産業データに強化学習を適用する際の課題に対処する。
- データ前処理、特徴量の正規化、モデル学習、評価、そして本番RL用途の提供をサポートするエンドツーエンドのプラットフォームを提供する。
- Horizonで学習したRLモデルが、監視学習やヒューリスティックポリシーを上回ったFacebookの実世界の展開を示す。
- RLが適切に定義された課題へ適用されるように、問題定義の検証とデータ理解のツールを提供する。
提案手法
- モデル化/学習にはPyTorch、モデルサービングにはCaffe2を用いたPythonで構築されたエンドツーエンドプラットフォーム。
- 記録データをRL学習形式へ変換する、SparkベースのTimelineデータ前処理パイプライン。
- トレーニングと提供のための特徴量の正規化パラメータを自動的に検出・計算する特徴量正規化ワークフロー。
- MDP適合性と特徴重要性を評価するため、Gaussian Mixture Model層を備えた確率的ニューラルネットワークを用いるデータ理解ツール。
- 離散アクションDQN、パラメトリックアクションDQN、DDPG、SACを実装し、離散、非常に大きな離離散、連続アクション空間をカバー。
- PyTorchのマルチGPU対応を備えたCPU/GPU/multi-node環境での分散学習。
- Counterfactual policy evaluation (CPE) メソッドをトレーニングと評価に統合(DM、IS、DR、連続DR、MAGIC)。
- 大規模展開のためにPyTorchモデルをONNXにエクスポートし、さらにCaffe2へ渡して最適化されたモデルサービング。
実験結果
リサーチクエスチョン
- RQ1シミュレータが利用できないまたは適さない大規模で実世界の生産データに、RLをどのように効果的に適用できるか?
- RQ2生産環境でRLモデルを前処理・正規化・評価・展開するために、どのようなエンドツーエンドのツールとデータワークフローが必要か?
- RQ3反事実ポリシー評価法は、過度なオンライン実験を必要とせず、業務 RL の指針となる信頼できるオフライン推定を提供するか?
- RQ4Horizonで訓練された本番環境のRLモデルは、実世界のアプリケーションで監視学習やヒューリスティックポリシーを実質的に上回る改善を示せるか?
主な発見
- Horizonは、数百万のサンプルでのマルチノードおよびマルチGPU構成をサポートし、巨大な特徴空間での高速反復を可能にする。
- オフラインの反事実ポリシー評価法がトレーニングへ統合され、即時のオンライン展開なしでポリシー性能の推定を提供する。
- Facebookの実運用展開では、Horizonで訓練されたRLモデルが、プッシュ通知やページ管理者通知といったタスクで監視学習およびヒューリスティックポリシーを上回った。
- データ理解ツールは、RL問題がMDPフレームワークに適合することを保証し、意味のある特徴量とアクション-状態の関係を特定するのに役立つ。
- 特徴量正規化とデータ前処理パイプラインは、大規模で疎で異質な特徴セットでの収束とモデル性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。