QUICK REVIEW

[논문 리뷰] Ray: A Distributed Framework for Emerging AI Applications

Philipp Moritz, Robert Nishihara|arXiv (Cornell University)|2017. 12. 16.

Reinforcement Learning in Robotics참고 문헌 53인용 수 253

한 줄 요약

Ray는 강화학습 워크로드에 대한 동적 태스크/액터 모델과 확장 가능하고 장애 내성 있는 실행 엔진으로 학습, 시뮬레이션, 서비스 제공을 통합합니다; it scales to millions of tasks per second and outperforms specialized systems on RL tasks.

ABSTRACT

The next generation of AI applications will continuously interact with the environment and learn from these interactions. These applications impose new and demanding systems requirements, both in terms of performance and flexibility. In this paper, we consider these requirements and present Ray---a distributed system to address them. Ray implements a unified interface that can express both task-parallel and actor-based computations, supported by a single dynamic execution engine. To meet the performance requirements, Ray employs a distributed scheduler and a distributed and fault-tolerant store to manage the system's control state. In our experiments, we demonstrate scaling beyond 1.8 million tasks per second and better performance than existing specialized systems for several challenging reinforcement learning applications.

연구 동기 및 목표

다이나믹 환경에서 RL 워크로드(훈련, 시뮬레이션, 서비스)를 처리하는 통합 프레임워크의 필요성을 제시합니다.
작업 병렬(task-parallel)과 액터 기반 계산을 모두 지원하는 단일 다이나믹 실행 엔진을 제안합니다.
제어 상태와 계보를 관리하는 분산 스케저링 및 메타데이터 저장소를 갖춘 확장 가능하고 장애 내성이 있는 시스템을 설계합니다.

제안 방법

작업(상태가 없는 원격 함수)과 액터(상태를 가지는 객체)에 대한 통합 API를 도입합니다.
입력이 가능할 때 자동으로 연산을 트리거하는 다이나믹 태스크 그래프 실행 모델을 구현합니다.
저지연성과 확장성을 달성하기 위해 전역 제어 저장소, 하향식 분산 스케줄러, 인메모리 객체 저장소로 Ray를 구성합니다.
샤드된 메타데이터와 계보 추적을 통해 제어 상태를 계산으로부터 분리하여 장애 내성을 확보합니다.
중첩 원격 함수와 자원 인식 스케줄링을 가능하게 하여 이질적 워크로드를 처리합니다.

실험 결과

연구 질문

RQ1단일 프레임워크가 시뮬레이션, 분산 학습, 정책 서비스가 필요한 RL 워크로드를 어떻게 효율적으로 지원할 수 있을까?
RQ2다이나믹하고 이질적인 태스크에 대한 밀리초 수준의 지연, 고처리량 및 장애 내성을 가능하게 하는 아키텍처 선택은 무엇인가?
RQ3통합 액터/태스크 모델이 RL 애플리케이션에 대해 여러 시스템을 연결한 stitched 접근 방식보다 더 나은 성능을 낼 수 있는가?

주요 결과

Ray는 실험에서 1.8백만 개가 넘는 태스크를 초과하여 확장합니다.
Ray는 하향식 분산 스케줄러와 샤드된 메타데이터 저장소로 밀리초 수준의 지연을 달성합니다.
Global Control Store는 무상태 구성요소와 확장 가능한 장애 내성 계보 추적을 가능하게 합니다.
Ray는 로컬성 인식 태스크 배치를 제공하고 대규모 클러스터에서도 거의 선형에 가까운 확장성을 보여줍니다.
Ray는 여러 RL 애플리케이션(훈련, 서비스, 시뮬레이션)에 대해 기존의 전문 시스템보다 더 나은 성능을 보여줍니다.
객체 저장소는 초당 15 GB 이상의 쓰기 처리량과 같은 노드에서 제로 카피 데이터 공유를 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.