QUICK REVIEW

[논문 리뷰] Horizon: Facebook's Open Source Applied Reinforcement Learning Platform

Jason Gauci, Edoardo Conti|arXiv (Cornell University)|2018. 11. 01.

Reinforcement Learning in Robotics참고 문헌 42인용 수 90

한 줄 요약

Horizon은 Facebook의 대규모 현실 데이터셋에 대한 적용 강화학습용 오픈 소스 엔드-투-엔드 플랫폼으로, 데이터 전처리, 특징 정규화, 데이터 이해, 다중 노드 학습, 반사실 정책 평가, 최적화된 서빙 및 프로덕션급 배포를 제공합니다.

ABSTRACT

In this paper we present Horizon, Facebook's open source applied reinforcement learning (RL) platform. Horizon is an end-to-end platform designed to solve industry applied RL problems where datasets are large (millions to billions of observations), the feedback loop is slow (vs. a simulator), and experiments must be done with care because they don't run in a simulator. Unlike other RL platforms, which are often designed for fast prototyping and experimentation, Horizon is designed with production use cases as top of mind. The platform contains workflows to train popular deep RL algorithms and includes data preprocessing, feature transformation, distributed training, counterfactual policy evaluation, optimized serving, and a model-based data understanding tool. We also showcase and describe real examples where reinforcement learning models trained with Horizon significantly outperformed and replaced supervised learning systems at Facebook.

연구 동기 및 목표

실제 산업에서 생산된 데이터가 아닌 시뮬레이터가 없거나 부적합한 상황에서 강화학습을 적용하는 데 따른 도전을 다룬다.
데이터 전처리, 특징 정규화, 모델 학습, 평가, 프로덕션 RL 사용 사례를 위한 서비스 구축을 지원하는 엔드-투-엔드 플랫폼을 제공한다.
Horizon으로 학습된 RL 모델이 감독학습 또는 휴리스틱 정책보다 실세계에서 더 우수하다는 것을 Facebook의 실제 배포 사례로 입증한다.
RL이 잘 정의된 과제로 적용되도록 문제 정의 검증 및 데이터 이해를 위한 도구를 제공한다.

제안 방법

모델링/학습은 PyTorch를 사용하고, 모델 서빙은 Caffe2를 사용하는 Python 기반의 엔드-투-엔드 플랫폼이다.
로그된 데이터를 RL 학습 형식으로 변환하는 Spark 기반 Timeline 데이터 전처리 파이프라인이다.
학습 및 서빙을 위한 정규화 매개변수를 자동으로 감지하고 계산하는 특징 정규화 워크플로우이다.
MDP 적합성 및 특징 중요도를 평가하기 위해 가우시안 혼합 모델 층을 갖춘 확률적 신경망을 사용하는 데이터 이해 도구이다.
이산 작용-공간 DQN, 매개변수적 작용 DQN, DDPG, SAC를 구현하여 이산, 매우 큰 이산, 연속 작용 공간을 포괄한다.
PyTorch 다중 GPU 지원을 통한 CPU/GPU/다중 노드 환경에서의 분산 학습이다.
학습 및 평가에 반사실 정책 평가(CPE) 방법(DM, IS, DR, 순차 DR, MAGIC)을 통합했다.
대규모 배치를 위해 PyTorch 모델을 ONNX로 내보낸 후 Caffe2로 배포를 최적화한다.

실험 결과

연구 질문

RQ1시뮬레이터가 없거나 부적합한 상황에서 대규모 현실 세계의 프로덕션 데이터에 RL을 어떻게 효과적으로 적용할 수 있는가?
RQ2생산 설정에서 RL 모델을 전처리, 정규화, 평가 및 배포하기 위해 필요한 엔드-투-엔드 도구와 데이터 워크플로우는 무엇인가?
RQ3반사실 정책 평가 방법이 과도한 온라인 실험 없이도 생산 RL의 성능을 안내하는 신뢰할 수 있는 오프라인 추정치를 제공하는가?
RQ4Horizon으로 학습된 프로덕션 RL 모델이 실제 응용에서 감독 학습이나 휴리스틱 정책보다 실질적인 개선을 보일 수 있는가?

주요 결과

Horizon은 수백만 개의 샘플에서 다중 노드 및 다중 GPU 구성을 통해 대규모 특징 공간에서의 빠른 반복이 가능하다.
오프라인 반사실 정책 평가 방법이 학습에 통합되어 온라인 배포 없이도 정책 성능의 추정치를 제공한다.
Facebook의 프로덕션 배포에서 Horizon으로 학습된 RL 모델이 페이지 관리자 알림과 같은 작업에서 감독 학습 및 휴리스틱 정책보다 우수한 성능을 보였다.
데이터 이해 도구가 RL 문제의 MDP 프레임워크 적합성과 의미 있는 특징 및 행동-상태 관계를 식별하는 데 도움을 준다.
특징 정규화 및 데이터 전처리 파이프라인이 크고 희박하며 이질적인 특징 집합에서 수렴 및 모델 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.