Skip to main content
QUICK REVIEW

[논문 리뷰] Discrete Sequential Prediction of Continuous Actions for Deep RL

Luke Metz, Julian Ibarz|arXiv (Cornell University)|2017. 05. 14.
Reinforcement Learning in Robotics참고 문헌 55인용 수 70
한 줄 요약

이 논문은 Sequential DQN (SDQN)을 제안합니다. 오프 폴리시 방법으로 각 행동 차원을 이산화하고 연속적으로 행동을 예측하여 연속 제어 과제에서 거의 전역 최적화에 근접하게 만듭니다. Mujoco 과제에서 DDPG와 경쟁하거나 더 나은 성능을 보여줍니다.

ABSTRACT

It has long been assumed that high dimensional continuous control problems cannot be solved effectively by discretizing individual dimensions of the action space due to the exponentially large number of bins over which policies would have to be learned. In this paper, we draw inspiration from the recent success of sequence-to-sequence models for structured prediction problems to develop policies over discretized spaces. Central to this method is the realization that complex functions over high dimensional spaces can be modeled by neural networks that predict one dimension at a time. Specifically, we show how Q-values and policies over continuous spaces can be modeled using a next step prediction model over discretized dimensions. With this parameterization, it is possible to both leverage the compositional structure of action spaces during learning, as well as compute maxima over action spaces (approximately). On a simple example task we demonstrate empirically that our method can perform global search, which effectively gets around the local optimization issues that plague DDPG. We apply the technique to off-policy (Q-learning) methods and show that our method can achieve the state-of-the-art for off-policy methods on several continuous control tasks.

연구 동기 및 목표

  • 고차원 연속 제어를 이산화로 해결하는 도전 과제의 동기 부여.
  • 지수적 행동 폭발 없이 이산화된 행동 공간을 다루기 위한 순차적(자기회귀) Q-값 모델링 접근 방식 도입.
  • 역전파 및 Bellman 백업을 가능하게 하는 1차원 행동 예측으로의 두 계층 MDP 변환 개발.
  • 연구 정책가치가 off-policy 학습 이점을 보이도록 방법을 Q-learning 스타일 업데이트를 연속 제어 작업에 적용.

제안 방법

  • 두 층 MDP 계층 구조를 사용해 N차원 연속 행동 공간을 1-D 행동 시퀀스로 분해.
  • 각 행동 차원을 Bin으로 이산화하고 순차 예측기(SDQN)로 Q-값 모델링.
  • 그리디 정책에 대한 벨만 오차를 최소화하여 TD-0로 상위 MDP에서 Q^U를 학습.
  • 실제 환경이 상태를 바꿀 때를 제외하고 제로 디스카운트를 유지하며 하위 MDP에서 Q^L을 학습, 해당 지점에서 Q^U = Q^L를 강제.
  • 신경망으로 Q^U와 Q^L를 매개화(일부 단계별 LSTM 또는 단계별 개별 모델), 두 Q-함수 간의 연soft 동등성 강제.
  • OpenAI Gym Mujoco 과제에서 SDQN과 DDPG를 비교하고 Bin 수 및 행동 순서에 대한 민감도 분석.

실험 결과

연구 질문

  • RQ1행동 차원을 이산화하고 이를 순차적으로 예측하면 고차원 연속 제어에서 효과적인 전역 최적화를 달성할 수 있는가?
  • RQ2오프 폴리시 SDQN 접근 방식이 표준 벤치마크에서 최첨단 연속 제어 방법(예: DDPG)과 비교할 만한 성능을 달성하는가?
  • RQ3이산화의 정밀도( Bin 수)와 행동 순서가 학습 성능과 안정성에 어떤 영향을 미치는가?

주요 결과

  • SDQN은 다섯 Mujoco 과제 중 네 가지에서 DDPG보다 경쟁력 있거나 우수한 성능을 달성합니다.
  • SDQN은 빠르게 좋은 정책을 학습하고 그래디언트 기반 방법이 빠지는 지역 최대에 빠지지 않도록 할 수 있습니다.
  • 이 방법은 다양한 Bin 수(bin > 4)에 대해 강건한 것으로 보이며 일반적으로 행동 순서에 대한 민감도는 작습니다.
  • Hopper, Swimmer, Half-Cheetah, Humanoid, Walker2d에서 SDQN과 DDPG은 각각의 성능 지표를 보이며, SDQN이 종종 더 높은 최종 보상을 달성합니다.
  • 다중모드의 예시 환경에서 SDQN은 전역 탐색을 수행하고 지역 최적화 방법이 방해하는 지역 최대를 피할 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.