[논문 리뷰] Iterative Reinforcement Learning Based Design of Dynamic Locomotion Skills for Cassie
DASS 기반의 반복적 설계로 감독적 모방과 정책-그래디언트 RL를 결합하여 Cassie를 위한 빠르고 로버스트하며 다양한 속도 보행 정책을 가능하게 하며, 다이나믹스 무작위화 없이 시뮬레이션에서 하드웨어로의 전이가 가능하다.
Deep reinforcement learning (DRL) is a promising approach for developing legged locomotion skills. However, the iterative design process that is inevitable in practice is poorly supported by the default methodology. It is difficult to predict the outcomes of changes made to the reward functions, policy architectures, and the set of tasks being trained on. In this paper, we propose a practical method that allows the reward function to be fully redefined on each successive design iteration while limiting the deviation from the previous iteration. We characterize policies via sets of Deterministic Action Stochastic State (DASS) tuples, which represent the deterministic policy state-action pairs as sampled from the states visited by the trained stochastic policy. New policies are trained using a policy gradient algorithm which then mixes RL-based policy gradients with gradient updates defined by the DASS tuples. The tuples also allow for robust policy distillation to new network architectures. We demonstrate the effectiveness of this iterative-design approach on the bipedal robot Cassie, achieving stable walking with different gait styles at various speeds. We demonstrate the successful transfer of policies learned in simulation to the physical robot without any dynamics randomization, and that variable-speed walking policies for the physical robot can be represented by a small dataset of 5-10k tuples.
연구 동기 및 목표
- 각 반복에서 보상 함수 재정의가 가능하도록 전체 보상 설계를 반복적 DRL 디자인 프로세스로 허용하고, 이전 정책으로부터의 편차를 제한한다.
- DASS 튜플을 도입하여 소수 샘플로 정책을 재구성하고 증류한다.
- DASS 기반 모방 학습과 RL을 부드러운 제약을 통해 결합하여 새로운 목표에 맞춰 정책을 다듬되 전문가 동작에 가까운 상태를 유지한다.
- 시뮬레이션에서 학습된 정책을 다이나믹스 무작위화 없이 물리적 Cassie 로봇으로 전달한다.
- 강건성을 해치지 않으면서 정책을 더 작은 네트워크로 축소 및 증류하는 것을 보여준다.
제안 방법
- DASS를 전문가의 분포 하에서 전문가의 행동 평균 분포에 의해 방문한 상태의 (상태, 전문가 평균 행동) 쌍의 데이터셋으로 정의한다.
- 제한된 샘플로 정책을 회복하기 위해 감독 학습 J_sp(θ)=E_{s∼D}[(m_θ(s)−m_e(s))^2]를 해결한다.
- 전체 목표 J_total = J_rl − w J_sp로 감독 학습 데이터로 RL 업데이트를 소프트하게 제약한다.
- θ_{t+1} = θ_t + α(∇_θ J_rl − w ∇_θ J_sp)로 정책 그래디언트와 감독 학습을 혼합하여 업데이트한다.
- 강건성과 증류 용이성을 위해 트레이닝 중 큰 고정 공분산 가우시안 정책을 사용하여 노이즈를 주입한다.
- Proximal Policy Optimization을 사용한 고충실도 Cassie 시뮬레이터(MuJoCo)에서의 정책 학습을 보여주고, 다이나믹스 무작위화 없이 물리 로봇으로 전달한다.
실험 결과
연구 질문
- RQ1 DASS 데이터 수집을 활용한 반복 RL 설계 프레임워크가 이전 정책으로부터의 편차를 제한하면서 설계 반복 간 보상 함수 재정의를 지원할 수 있는가?
- RQ2 DASS 기반 모방 학습을 정책 그래디언트 RL과 효과적으로 결합하여 강인하고 다양한 속도 보행 정책을 생성할 수 있는가?
- RQ3 시뮬레이션에서 학습된 정책을 다이나믹스 무작위화 없이 Cassie로 전이하면 여러 보행 및 속도에서 안정적인 보행이 발생하는가?
- RQ4 더 작은 네트워크로 축소할 때 정책 압축과 증류가 강인성을 보존하는 데 어떤 역할을 하는가?
- RQ5 다수의 전문화된 정책들을 여러 보행 스타일이 가능한 단일 정책으로 증류할 수 있는가?
주요 결과
- 시뮬레이션에서 학습되고 하드웨어로 무다이나믹스 무작위화 없이 전이된 정책으로 Cassie에서 다양한 보행 방식과 속도에서 안정적인 보행을 시연했다.
- 5–10k 쌍의 작은 DASS 데이터셋으로도 하드웨어에서 강인한 가변 속도 보행 정책을 재구성하는 데 충분하다.
- RL과 DASS 기반 모방 학습의 결합으로 이전 정책에 가까운 상태를 유지하며 새로운 보상 함수를 탐색할 수 있어 망각을 피할 수 있다.
- 큰 신경망은 RL 학습을 가속화하고 더 강건한 정책을 산출하며, 압축하여 더 작은 네트워크로 축소했을 때도 하드웨어에서 비교적 비슷한 성능을 발휘할 수 있다(예: 16×16에서 64×64 은닉층).
- 반복적 설계에서 보상 변경은 골반 모션을 더욱 매끄럽게 하고 속도 전체에 걸친 안정적인 보행(앞·뒤 보행 포함)을 가능하게 하며, 물리 로봇의 비모델링 간섭에도 대처할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.