QUICK REVIEW

[논문 리뷰] Hierarchical Approaches for Reinforcement Learning in Parameterized Action Space

Ermo Wei, Drew Wicke|arXiv (Cornell University)|2018. 10. 23.

Reinforcement Learning in Robotics인용 수 24

한 줄 요약

이 논문은 매개변수화된 행동 공간을 위한 계층적 딥 강화 학습 프레임워크를 제안하며, 이는 이산 행동 정책이 연속적 매개변수 정책을 조건화함으로써 출력 크기를 줄이고 샘플 효율성을 향상시킨다. 저자들은 SOTA 방법들인 PADDPG보다 안정성과 성능 면에서 뛰어난 PATRPO와 PASVG(0)을 도입한다.

ABSTRACT

We explore Deep Reinforcement Learning in a parameterized action space. Specifically, we investigate how to achieve sample-efficient end-to-end training in these tasks. We propose a new compact architecture for the tasks where the parameter policy is conditioned on the output of the discrete action policy. We also propose two new methods based on the state-of-the-art algorithms Trust Region Policy Optimization (TRPO) and Stochastic Value Gradient (SVG) to train such an architecture. We demonstrate that these methods outperform the state of the art method, Parameterized Action DDPG, on test domains.

연구 동기 및 목표

매개변수화된 행동 공간 작업에 대한 엔드 투 엔드 학습에서의 샘플 비효율성 문제를 해결한다.
이전 방법들이 이산 행동과 매개변수화된 행동을 별도로 다루거나 조건화 없이 다루는 데서 비롯되는 한계를 극복한다.
매개변수 정책이 이산 행동 선택에 조건화되는 통합 아키텍처를 개발하여 출력 차원을 감소시킨다.
최신 기법들(TRPO 및 SVG)을 계층적 아키텍처에 확장하여 효과적으로 새로운 아키텍처를 학습시킨다.
복잡한 제어 작업에서 기존 방법들인 PADDPG에 비해 뛰어난 성능과 안정성을 입증한다.

제안 방법

이산 행동 정책의 출력에 따라 매개변수 정책이 조건화되는 계층적 아키텍처를 제안하여 매개변수 출력 크기를 줄인다.
이중 스트림 정책 네트워크를 사용: 하나는 이산 행동(다중 분류 출력)을 위한 것이고, 다른 하나는 이산 행동에 조건화된 연속적 매개변수(회귀 출력)를 위한 것이다.
Trust Region Policy Optimization (TRPO)를 계층적 설정에 적응시켜 PATRPO를 도출하며, 정책 갱신에 대해 KL 발산 제약 조건을 적용한다.
Stochastic Value Gradient (SVG)를 계층적 설정으로 확장하여 PASVG(0)를 생성하며, 가치 함수를 추정하기 위해 크리틱 네트워크를 사용한다.
변동 길이의 매개변수 출력을 처리하기 위해 출력 마스킹과 잘라내기 기법을 적용하여 첫 번째 유효 매개변수만 사용한다.
재생 버퍼와 오프-폴리시 학습을 적용하여 학습 중 데이터 효율성을 향상시킨다.

실험 결과

연구 질문

RQ1이산 행동에 의해 조건화되는 매개변수 정책을 갖는 계층적 정책 아키텍처가 매개변수화된 행동 공간 작업에서 샘플 효율성을 향상시키는가?
RQ2TRPO 및 SVG 기반 알고리즘이 이러한 계층적 아키텍처를 학습시키기 위해 적응되었을 때 성능은 어떠한가?
RQ3제안된 방법이 PADDPG와 같은 기존 SOTA 접근법에 비해 학습 안정성과 최종 성능 면에서 뛰어나게 성능을 발휘하는가?
RQ4KL 발산 추정 방법의 차이가 계층적 프레임워크에서 학습 안정성에 어떤 영향을 미치는가?
RQ5이 방법은 고차원 상태 및 행동 공간을 가진 더 큰, 더 복잡한 환경으로 일반화 가능한가?

주요 결과

PATRPO는 플랫폼 도메인에서 최고의 성능을 기록했으며, 성능 붕괴 없이 높은 보상 수준을 유지했다.
PADDPG는 불안정한 학습을 보였으며, 초기 성공에도 불구하고 빠르게 성공 정책을 잃었고, 이는 수렴 안정성이 열악함을 시사한다.
PASVG(0)는 평균 보상 약 0.4의 국소 최적점으로 수렴했으며, 이는 첫 번째 적군을 피하는 데는 성공했지만 두 번째 플랫폼에 착지하지 못한다는 것을 의미한다.
PATRPO에서 더 큰 스텝 크기는 빠른 수렴을 가져왔지만, 변동성 증가와 정책 안정화 후 성능 저하를 동반하여 학습 안정성의 상호 보완적 특성을 드러냈다.
HFO 도메인에서 PATRPO는 더 작은 신경망(400-300-200)으로 안정된 성능을 기록했고, PADDPG는 높은 변동성과 상당히 열 劣한 성능을 보이며 기준 방법이 더 큰 네트워크가 필요함을 시사했다.
플랫폼 도메인에서 다양한 KL 발산 추정 방법 간 성능에 미치는 영향은 거의 없었으며, 이는 TRPO 기반 갱신 메커니즘이 강건함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.