QUICK REVIEW

[논문 리뷰] Parameter Space Noise for Exploration

Matthias Plappert, Rein Houthooft|arXiv (Cornell University)|2017. 06. 06.

Reinforcement Learning in Robotics참고 문헌 34인용 수 364

한 줄 요약

이 논문은 탐색 방법으로 매개변수 공간 노이즈를 도입하고, 네트워크 매개변수를 섭동시키는 것이 심층 강화학습의 탐색을 향상시켜 여러 오프- 및 온폴리시 알고리즘에서 행동 공간 노이즈를 능가함을 보여준다. 희소 보상 포함 고차원 이산 및 연속 작업에서 이점이 나타나며, 샘플 효율성 측면에서 진화 전략과 비교하여 우수하다.

ABSTRACT

Deep reinforcement learning (RL) methods generally engage in exploratory behavior through noise injection in the action space. An alternative is to add noise directly to the agent's parameters, which can lead to more consistent exploration and a richer set of behaviors. Methods such as evolutionary strategies use parameter perturbations, but discard all temporal structure in the process and require significantly more samples. Combining parameter noise with traditional RL methods allows to combine the best of both worlds. We demonstrate that both off- and on-policy methods benefit from this approach through experimental comparison of DQN, DDPG, and TRPO on high-dimensional discrete action environments as well as continuous control tasks. Our results show that RL with parameter noise learns more efficiently than traditional RL with action space noise and evolutionary strategies individually.

연구 동기 및 목표

딥 강화학습에서 탐색의 문제점과 행동 공간 노이즈의 한계를 제시한다.
신경 정책에 대한 구조화된 탐색 메커니즘으로 매개변수 공간 노이즈를 제안한다.
매개변수 공간 노이즈가 off-policy 및 on-policy 알고리즘(DQN, DDPG, TRPO)에 통합될 수 있는 방법을 보여준다.
고차원 및 희소 보상 작업에서 향상된 탐색을 보여준다.
추가 하이퍼파라미터 없이 매개변수 노이즈를 스케일링하는 적응형 스킴을 제시한다.

제안 방법

정책을 매개변수화된 함수로 표현하고 매개변수 벡터를 가우시안 노이즈로 섭동한다: theta-tilde = theta + N(0, sigma^2 I).
각 에피소드 시작 시 정책을 섭동하고 롤아웃 동안 고정되어 시간적 구조를 유도한다.
깊은 네트워크에서 의미 있는 섭동을 가능하게 하려면 계층 정규화를 사용한다.
가우시안 스케일링 업데이트를 통해 유도된 작용 공간 거리를 목표 임계값과 일치시키는 적응적 노이즈 스케일링을 도입한다(식 1).
재매개화 트릭과 고정 Sigma를 따르는 노이즈 매개변수를 가진 온폴리시 방법에 대한 정책-경사 기반 업데이트를 적응적 스케일링과 함께 도출한다(부록 B/C).
DQN(오프폴리시) 및 DDPG/TRPO(오프폴리시/온폴리시)에서 매개변수 공간 노이즈를 적용하고 작업별로 행동 공간 노이즈와 비교한다.

실험 결과

연구 질문

RQ1매개변수 공간 노이즈가 최신 RL 알고리즘(DQN, DDPG, TRPO)의 탐색을 행동 공간 노이즈와 비교하여 개선하는가?
RQ2행동 공간 노이즈가 어려움을 겪는 희소 보상 환경에서 매개변수 공간 노이즈가 학습을 가능하게 하는가?
RQ3표준 벤치마크에서 샘플 효율성 및 성능 측면에서 매개변수 공간 노이즈가 진화 전략과 어떻게 비교되는가?
RQ4안정적이고 효과적인 탐색을 유지하기 위해 매개변수 공간 노이즈를 어떻게 적응적으로 스케일링할 것인가?
RQ5오프폴리시와 온폴리시 학습 설정 모두에서 매개변수 공간 노이즈가 이로운가?

주요 결과

매개변수 공간 노이즈는 일관성이 중요한 경우를 포함하여 고차원 이산 및 연속 작업에서 종종 행동 공간 노이즈보다 우수하다.
연속 제어에서 적응형 매개변수 공간 노이즈는 HalfCheetah에서 성능을 크게 향상시키고 Walker2D 및 다른 작업에서 비최적의 국소 최적점에서 탈출하는 데 도움이 될 수 있다.
매개변수 공간 노이즈는 행동 공간 노이즈가 실패하는 여러 희소 보상 연속 작업에서 학습을 가능하게 한다(예: SparseCartpoleSwingup, SparseMountainCar).
DDPG가 매개변수 공간 노이즈를 가진 경우 비상관 또는 상관된 행동 공간 노이즈보다 더 높은 보상과 더 나은 탐색을 달성할 수 있다.
40M 프레임의 매개변수 공간 노이즈가 21개 중 15개에서 ES를 능가했고, 훨씬 적은 데이터로도 샘플 효율이 더 좋음을 시사한다.
이 접근법은 기존 개선안들(예: 더블 DQN, 우선순위 재생, 듀얼링 네트워크 등)과 상호보완적이며 더 큰 이득을 위해 결합될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.