Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Generalization and Simplicity in Continuous Control

Aravind Rajeswaran, Kendall Lowrey|arXiv (Cornell University)|2017. 03. 08.
Reinforcement Learning in Robotics참고 문헌 18인용 수 26
한 줄 요약

이 논문은 간단한 선형 및 반경 기저 함수(RBF) 정책이 표준 연속 제어 벤치마크에서 최신 기술 성능(SOTA)을 달성할 수 있음을 보여주며, 깊은 신경망 성능을 따라잡거나 초월함과 동시에 훈련 속도를 최대 20배 빠르게 한다. 훈련 중 다양한 초기 상태 분포를 사용함으로써 이러한 단순한 정책은 더 나은 일반화 능력을 보이며, 큰 온라인 외란에도 회복할 수 있다. 이는 강력한 제어를 위해 복잡한 아키텍처가 반드시 필요하다는 가정을 도전한다.

ABSTRACT

This work shows that policies with simple linear and RBF parameterizations can be trained to solve a variety of continuous control tasks, including the OpenAI gym benchmarks. The performance of these trained policies are competitive with state of the art results, obtained with more elaborate parameterizations such as fully connected neural networks. Furthermore, existing training and testing scenarios are shown to be very limited and prone to over-fitting, thus giving rise to only trajectory-centric policies. Training with a diverse initial state distribution is shown to produce more global policies with better generalization. This allows for interactive control scenarios where the system recovers from large on-line perturbations; as shown in the supplementary video.

연구 동기 및 목표

  • 선형 및 RBF 함수와 같은 단순한 정책 파arameterization이 표준 연속 제어 벤치마크에서 경쟁 가능한 성능을 낼 수 있는지 조사하기 위해.
  • 일반적으로 부서지기 쉬운 궤적 중심 행동을 유도하는 전통적이고 좁은 초기 상태 분포로 훈련된 정책의 강건성 평가하기 위해.
  • 다양한 초기 상태로 훈련하면 일반화 능력 향상과 큰 온라인 외란 이후 복구 능력 향상이 이루어지는지 평가하기 위해.
  • 깊은 신경망이 복잡한 제어 과제를 해결하는 데 필수적이라는 일반적인 가정을 도전하고, 오카머의 면도날 원칙을 통해 더 단순한 대안을 주장하기 위해.
  • 표준 에피소드 수익 지표를 넘어서 강건성에 대한 정보적인 새로운 벤치마크로 상호작용 평가를 정책 평가에 도입하기 위해.

제안 방법

  • 표본 효율성과 수렴 속도 향상을 위해 공액 기울기(CG)를 통한 전처리를 적용한 자연 정책 기울기(NPG)를 사용하여 정책을 훈련시키기 위해.
  • 정책에 대해 선형 및 RBF 파arameterization을 사용하며, 비선형성을 근사하기 위해 무작위 푸리에 특징을 통해 RBF를 구현하기 위해.
  • 초기 상태를 더 넓은 분포에서 샘플링하여 '글로벌' 변형을 도입함으로써, 정책이 특정 궤적을 넘어서 일반화하도록 유도하기 위해.
  • 추론 중에 큰 온라인 외란을 주입하여 강건성과 복구 능력을 평가하기 위해 상호작용 테스트를 적용하기 위해.
  • 동일한 훈련 및 평가 프rotocol를 사용하여 Trust Region Policy Optimization(TRPO)로 훈련된 깊은 신경망 정책과 성능 비교하기 위해.
  • 가치 함수와 이득 함수를 부트스트랩핑을 통해 계산하고, 유한 수평 롤아웃을 사용하여 평균 보상 목표를 추정하기 위해.

실험 결과

연구 질문

  • RQ1간단한 선형 및 RBF 정책이 표준 연속 제어 벤치마크에서 깊은 신경망 성능과 경쟁 가능한 성능을 낼 수 있는가?
  • RQ2좁은 초기 상태 분포와 다양한 초기 상태 분포로 훈련했을 때 정책의 일반화 능력과 강건성에 어떤 영향을 미치는가?
  • RQ3복잡한 정책 아키텍처가 벤치마크 제어 과제를 해결하는 데 필수적인 이점을 제공하는가, 아니면 단순한 형태로도 충분한가?
  • RQ4상호작용 외란 테스트는 표준 에피소드 수익 지표로는 포착되지 않는 강건성의 한계를 드러낼 수 있는가?
  • RQ5딥 강화 학습에서 연속 제어를 위한 정책 복잡성, 훈련 속도, 일반화 능력 간의 상충 관계는 무엇인가?

주요 결과

  • 선형 및 RBF 정책은 Walker2D와 Hopper와 같은 OpenAI Gym 연속 제어 벤치마크에서 최신 기술 성능를 달성하며, 깊은 신경망과 비교해도 성능이 유사하다.
  • 다양한 초기 상태로 훈련된 단순한 정책는 일반화 능력이 크게 향상되어 있으며, 좁은 초기 상태 분포로 훈련된 정책와는 달리 큰 온라인 외란에도 복구할 수 있다.
  • 다양한 초기 상태로 훈련하면 정책가 광범위한 시작 설정에서 작업을 해결할 수 있는 글로벌 능력을 갖추게 되며, 특정 궤적에 국한되지 않는다.
  • 선형 정책는 파arameter 수가 수 개의 주기로 줄어들어 깊은 네트워크보다 최대 20배 더 빠른 훈련 속도를 보이며 성능 손실 없이도 성능 유지를 한다.
  • 훈련 조건을 더 다양하게 만들었을 때, 다층 신경망이 단순 파arameterization보다 성능에서 뛰어나다는 설득력 있는 증거는 없다.
  • 상호작용 테스트는 표준 훈련 루틴이 외란에 취약한 부서지기 쉬운 정책을 만들어내며, 현재 평가 체계의 핵심적 한계를 드러낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.