QUICK REVIEW

[논문 리뷰] Diff-DAC: Distributed Actor-Critic for Average Multitask Deep Reinforcement Learning

Sergio Valcárcel Macua, Aleksi Tukiainen|arXiv (Cornell University)|2017. 10. 28.

Reinforcement Learning in Robotics참고 문헌 43인용 수 30

한 줄 요약

Diff-DAC는 평균 다중작업 강화학습을 위한 공유 정책을 학습하기 위해 에이전트 간에 확산 기반의 통신을 사용하는 완전히 분산된 딥 강화학습 알고리즘입니다. 이론적 이중성 이론에서 액터-크리틱을 유도하고 딥 네ural 네트워크로 근사함으로써, 리플레이 버퍼나 타겟 네트워크 없이도 Dist-MTLPS 및 중심화된 액터-크리틱보다 더 나은 渐진적 성능을 달성합니다.

ABSTRACT

We propose a fully distributed actor-critic algorithm approximated by deep neural networks, named extit{Diff-DAC}, with application to single-task and to average multitask reinforcement learning (MRL). Each agent has access to data from its local task only, but it aims to learn a policy that performs well on average for the whole set of tasks. During the learning process, agents communicate their value-policy parameters to their neighbors, diffusing the information across the network, so that they converge to a common policy, with no need for a central node. The method is scalable, since the computational and communication costs per agent grow with its number of neighbors. We derive Diff-DAC's from duality theory and provide novel insights into the standard actor-critic framework, showing that it is actually an instance of the dual ascent method that approximates the solution of a linear program. Experiments suggest that Diff-DAC can outperform the single previous distributed MRL approach (i.e., Dist-MTLPS) and even the centralized architecture.

연구 동기 및 목표

지리적으로 분산된 데이터를 가진 대규모 다중작업 강화학습(MRL)에서의 확장성과 통신 비용 문제를 해결합니다.
중앙 집중식 파rameter 서버 없이도 에이전트들이 공유 정책을 학습할 수 있도록 완전히 분산된 액터-크리틱 프레임워크를 개발합니다.
선형 함수 근사, 순차적 업데이트 또는 고비용의 특징 공학에 의존하는 이전의 분산 MRL 방법의 한계를 극복합니다.
이중성 이론을 통해 액터-크리틱을 엄밀하게 유도함으로써 정책 기반 강화학습과 이점 함수 통합에 대한 새로운 이론적 통찰을 제공합니다.
희소 연결성을 가진 분산 학습이 중심화된 학습보다 더 나은 일반화와 안정성을 제공할 수 있음을 보여줍니다.

제안 방법

작업 파rameter의 평균 전역 변수를 사용하여 평균 다중작업 RL 문제를 선형계획문(LP)으로 공식화합니다.
LP의 라그랑주 안정점 문제를 해결하기 위해 이중 상승법으로 액터-크리틱 알고리즘을 도출함으로써 이론적 기반을 제공합니다.
에이전트들이 이웃과 비동기적이고 순서에 민감하지 않은 방식으로 가치 및 정책 파라미터를 교환하는 확산 전략을 구현합니다.
딥 네ural 네트워크를 사용해 이중 변수(가치 함수 및 정책)를 근사함으로써 비선형 함수 근사가 가능해지고 수동적 특징 공학의 필요성을 제거합니다.
각 에이전트가 로컬 경험과 이웃 평균 파라미터에 기반해 자신의 정책 및 가치 함수를 업데이트하는 분산 업데이트 규칙을 사용합니다.
희소 네트워크 구조를 통해 정규화 효과를 도입함으로써 수렴성과 일반화 성능을 향상시킵니다.

실험 결과

연구 질문

RQ1완전히 분산된 액터-크리틱 알고리즘이 다중작업 환경에서 중심화된 방법과 이전의 분산 MRL 방법보다 더 나은 渐진적 성능을 달성할 수 있는가?
RQ2순차적 또는 중심화된 조율 방식과 비교할 때, 확산 기반의 통신 전략은 안정성과 수렴성 면에서 어떻게 다른가?
RQ3희소 연결성을 가진 분산 아키텍처가 일반화 성능 향상과 나쁜 국소 최적해 회피에 얼마나 기여하는가?
RQ4딥 네ural 네트워크는 이중성 이론에서 유도된 분산 이중 상승 프레임워크에 효과적으로 통합될 수 있는가?
RQ5작업 파라미터에 조건부로 정책 네트워크를 설정함으로써 제로샷 작업 적응에 본 알고리즘이 일반화되는가?

주요 결과

Diff-DAC는 단일작업 및 다중작업 환경에서 최신의 분산 MRL 방법인 Dist-MTLPS를 모두 능가하며, 더 높은 渐진적 수익을 달성합니다.
카트폴 밸런스 및 역진자 역행 작업에서, Diff-DAC는 더 빠르게 수렴하는 중심화된 액터-크리틱(Cent-AC)보다 더 나은 최종 성능을 기록합니다.
Diff-DAC는 리플레이 버퍼나 타겟 네트워크 없이도 안정성이 뛰어나 중심화된 기준보다 진동이나 발산을 피함을 보여줍니다.
알고리즘은 네트워크 희소성에 강건합니다: 약 N/6명의 이웃을 가진 희소 네트워크가 약 N/3명의 이웃을 가진 더 빽신 네트워크와 유사한 성능을 달성합니다.
에이전트 수를 25에서 100으로 늘일수록 渐진적 성능 향상이 나타나 집단 경험의 이점과 확장성의 가능성을 보여줍니다.
분산 아키텍처는 정규화 효과를 유도하여 중심화된 학습보다 더 나은 국소 최적해를 도출함으로써, 희소 연결성이 일반화 성능 향상에 기여함을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.