[논문 리뷰] Emergence of Locomotion Behaviours in Rich Environments
논문은rich, diverse training environments가 단순한 보상으로부터 강건한 보행 기술이 emergence하게 한다는 것을 보여주며, 다중 바디와 지형에 걸친 확장 가능한 분산 PPO 알고리즘을 사용한다. 커리큘럼처럼 다양하고 다양한 지형이 명시적 행동별 보상 없이도 학습 속도와 강건성을 향상시킨다는 것을 보여준다.
The reinforcement learning paradigm allows, in principle, for complex behaviours to be learned directly from simple reward signals. In practice, however, it is common to carefully hand-design the reward function to encourage a particular solution, or to derive it from demonstration data. In this paper explore how a rich environment can help to promote the learning of complex behavior. Specifically, we train agents in diverse environmental contexts, and find that this encourages the emergence of robust behaviours that perform well across a suite of tasks. We demonstrate this principle for locomotion -- behaviours that are known for their sensitivity to the choice of reward. We train several simulated bodies on a diverse set of challenging terrains and obstacles, using a simple reward function based on forward progress. Using a novel scalable variant of policy gradient reinforcement learning, our agents learn to run, jump, crouch and turn as required by the environment without explicit reward-based guidance. A visual depiction of highlights of the learned behavior can be viewed following https://youtu.be/hx_bgoTF7bs .
연구 동기 및 목표
- 다양한 환경에서 학습될 때 단순 보상 신호가 복잡한 보행 행동을 야기할 수 있는지 조사한다.
- 지형 다양성과 커리큘럼과 같은 난이도 진행이 학습 속도와 정책 강건성에 미치는 영향을 평가한다.
- rich environments에서 고차원 연속 제어에 적합한 확장 가능한 강화 학습 알고리즘을 개발/검증한다.
제안 방법
- 확장 가능하고 고차원 연속 제어를 위한 Distributed Proximal Policy Optimization (DPPO) 도입.
- 학습 가속화를 위해 고유감각(proprioceptive)과 외감각(exteroceptive) 입력을 분리하는 두 서브네트워크 정책 아키텍처 채택.
- Planar Walker, Quadruped, Humanoid를 대상으로 여러 몸체에 걸쳐 간단한 전진 보상과 가벼운 토크 페널티를 사용.
- 다양한 과제 난이도와 커리큘럼을 형성하기 위해 절차적으로 다양한 지형과 장애물 생성.
- 분산 학습을 촉진하기 위해 제한된 시간 역전파를 통한(backpropagation through time)과 공유 파라미터 서버를 사용하여 효율적인 분산 학습을 가능하게 한다.
- 벤치마크 작업에서 DPPO를 TRPO 및 A3C 베이스라인과 비교하고 확장성 및 순환 정책과의 호환성을 검증.
실험 결과
연구 질문
- RQ1다양한 환경과 결합된 단순한 forward-m 진행 보상이 전문 보상 없이도 점프, 웅크리기, 회전 등의 emergent 보행 기술을 야기할 수 있는가?
- RQ2커리큘럼과 같은 지형 진행 및 지형 다양성이 학습 속도와 정책 강건성에 어떤 영향을 미치는가?
- RQ3분산 PPO 프레임워크가 복잡한 몸체와 풍부한 지형에 대해 효과적으로 확장되면서 순환 정책을 가능하게 하는가?
- RQ4관찰되지 않은 지형 변화와 섭동에 대한 강건성을 보여주는 평가 증거는 무엇인가?
주요 결과
- DPPO는 Planar Walker, Humanoid, Memory Reacher 벤치마크에서 TRPO와 비교할 만한 성능을 달성하며 워커 수가 늘어나도 확장성이 우수하다.
- 다양하고 커리큘럼형 지형에서 학습된 에이전트는 특정 작업 보상 형성을 요구하지 않고도 점프, 웅크리기, 회전 등의 강건한 보행 기술을 개발한다.
- 커리큘럼 형의 점진적 난이도 증가가 정적인 난이도 지형에 비해 학습 속도를 높인다.
- 장애물이 풍부한 지형에서의 학습은 관찰되지 않은 지형 변화와 섭동에 대한 정책 강건성을 높인다.
- 휴머노이드 실험은 다양한 지형에서 질적 다양하고 잘 수행되는 보행을 보여주며, 일부 시드(seed)에서는 더 높은 작업 난이도에도 견고한 성공을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.