QUICK REVIEW

[논문 리뷰] RLgraph: Flexible Computation Graphs for Deep Reinforcement Learning.

Michael Schaarschmidt, Sven Mika|arXiv (Cornell University)|2018. 10. 21.

Reinforcement Learning in Robotics인용 수 4

한 줄 요약

RLgraph는 딥 강화학습을 위한 논리적 컴포넌트 조합, 백엔드 그래프 정의, 분산 실행을 분리하는 유연한 라이브러리이다. 다양한 딥 러닝 프레임워크와 분산 백엔드에서 정적 및 정의 기반 실행(Define-by-Run) 계산 그래프를 모두 지원함으로써, 높은 성능, 안정성 있는 RL 구현이 가능해지고 이로 인해 이식성과 확장성도 향상된다.

ABSTRACT

Reinforcement learning (RL) tasks are challenging to implement, execute and test due to algorithmic instability, hyper-parameter sensitivity, and heterogeneous distributed communication patterns. We argue for the separation of logical component composition, backend graph definition, and distributed execution. To this end, we introduce RLgraph, a library for designing and executing high performance RL computation graphs in both static graph and define-by-run paradigms. The resulting implementations yield high performance across different deep learning frameworks and distributed backends.

연구 동기 및 목표

딥 강화학습에서의 불안정성, 초모수 민감도, 복잡한 통신 패턴 문제를 해결하기 위해.
더 높은 모듈성 달성을 위해 논리적 컴포넌트 조합, 백엔드 실행, 그래프 정의를 분리하기 위해.
통합된 프레임워크에서 정적 및 동적(Define-by-Run) 계산 그래프를 모두 지원하기 위해.
다양한 딥 러닝 프레임워크와 분산 백엔드 간의 효율적인 실행을 가능하게 하기 위해.
RL 연구에서 재현 가능성, 성능, 실험 용이성을 향상시키기 위해.

제안 방법

컴ponent 조합, 그래프 정의, 분산 실행을 분리하는 모듈러 아키텍처를 도입한다.
최적화를 위한 정적 계산 그래프와 유연성 및 디버깅을 위한 Define-by-Run을 모두 지원한다.
다양한 딥 러닝 프레임워크(예: PyTorch, TensorFlow)를 추상화하는 통합 API를 제공한다.
스케일러블 학습을 위해 다양한 분산 백엔드(예: Ray, Horovod)와의 원활한 통합을 가능하게 한다.
그래프 수준 최적화와 자동 미분을 사용하여 다양한 패러다임 간 성능를 유지한다.
다양한 환경과 동적 워크로드를 처리하기 위해 분산 RL의 통신 패턴을 추상화한다.

실험 결과

연구 질문

RQ1어떻게 RL 시스템에서 컴포넌트 조합, 그래프 정의, 분산 실행을 분리할 수 있는가?
RQ2통합 프레임워크에서 성능을 손상시키지 않고 정적 및 동적 계산 그래프를 모두 지원할 수 있는가?
RQ3RLgraph는 초모수 민감도가 높은 RL 작업에서 안정성과 재현 가능성을 어떻게 향상시키는가?
RQ4RLgraph는 다양한 딥 러닝 프레임워크와 분산 백엔드에서 얼마나 높은 성능을 달성할 수 있는가?
RQ5RLgraph의 책임 분리 방식은 개발 생산성과 시스템 유지보수성에 어떤 영향을 미치는가?

주요 결과

RLgraph는 코드 수정 최소화로 다수의 딥 러닝 프레임워크에서 고성능 RL 학습을 가능하게 한다.
책임 분리 덕분에 RL 실험의 모듈성, 유지보수성, 재현 가능성 향상이 이루어진다.
정적 및 Define-by-Run 패러다임을 모두 지원함으로써 개발자가 성능과 유연성 간에 필요에 따라 쉽게 전환할 수 있다.
이질적인 통신 패턴을 추상화함으로써 효율적인 분산 실행을 달성한다.
라이브러리의 도입으로 딥 강화학습의 구현 복잡도가 감소하고 프로토타ип링 속도가 가속화된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.