[논문 리뷰] Advanced Skills by Learning Locomotion and Local Navigation End-to-End
이 논문은 다리가 있는 로봇을 위한 종단 간 딥 강화 학습을 제안하며, 속도 명령을 따라가는 대신 목표 지점에 시간 제한 내에 도달하도록 직접 최적화함으로써, 한 번의 정 politicy를 통해 동시에 운동 능력과 국소 탐색 능력을 학습한다. 이 방법은 실제 4족 보행 로봇에서 더 민첩하고 에너지 효율적이며 자연스러운 행동(예: 동적 점프 및 등반)을 가능하게 하여, 속도 추적 기반 기준 대비 도전적인 지형에서 더 높은 성공률을 달성한다.
The common approach for local navigation on challenging environments with legged robots requires path planning, path following and locomotion, which usually requires a locomotion control policy that accurately tracks a commanded velocity. However, by breaking down the navigation problem into these sub-tasks, we limit the robot's capabilities since the individual tasks do not consider the full solution space. In this work, we propose to solve the complete problem by training an end-to-end policy with deep reinforcement learning. Instead of continuously tracking a precomputed path, the robot needs to reach a target position within a provided time. The task's success is only evaluated at the end of an episode, meaning that the policy does not need to reach the target as fast as possible. It is free to select its path and the locomotion gait. Training a policy in this way opens up a larger set of possible solutions, which allows the robot to learn more complex behaviors. We compare our approach to velocity tracking and additionally show that the time dependence of the task reward is critical to successfully learn these new behaviors. Finally, we demonstrate the successful deployment of policies on a real quadrupedal robot. The robot is able to cross challenging terrains, which were not possible previously, while using a more energy-efficient gait and achieving a higher success rate.
연구 동기 및 목표
- 운동과 탐색을 별도의 작업으로 분해하고 철저한 제약 조건을 부여하는 전통적인 탐색 파이프라인의 한계를 극복하기 위해.
- 속도 추적 제약 조건을 제거하여 점프, 등반, 적응형 보행 선택과 같은 복잡한 동적 행동을 학습할 수 있도록 하기 위해.
- 통합된 정 politicy를 통해 전체 솔루션 공간을 탐색함으로써 에너지 효율성 향상과 도전적인 지형에서의 성공률 향상을 위해.
- 다양하고 어려운 환경에서 실제 4족 로봇(ANYmal)에 대한 실세계 배포에 대한 일반화를 입증하기 위해.
- 최종 보상 신호의 시간에 따라 변화하는 형태가 복잡한 행동의 출현에 필수적임을 보여주기 위해.
제안 방법
- 시간 제한 내에 목표 위치에 도달하는 것을 목표로 하여 상태 관측치에서 액션 명령어로 매핑하는 단일 딥 강화 학습 정 politicy를 종단 간으로 훈련한다.
- 각 에피소드의 끝에서만 보상 신호를 정의하며, 최종 목표 지점까지의 거리와 소요 시간에 기반한다. 이는 연속적인 속도 추적을 피한다.
- 거리와 시간에 대해 페널티를 주는 조밀한, 희박한, 형태가 조정된 보상 신호를 사용하며, 학습을 이끄는 데 시간에 따라 변화하는 형태 성분을 포함한다.
- 훈련 안정성을 향상시키기 위해 점차 증가하는 목표 거리와 지형 복잡도를 갖는 커리큘럼 학습 스케줄을 구현한다.
- 학습된 액추에이터 모델을 사용하여 연속 탄성 액추에이터를 시뮬레이션하고, 토크를 물리적 한계로 잘라내어 실제 ANYmal 로봇에 정 politicy를 배포한다.
- 배포 중에는 조이스틱 또는 위치 목표를 통해 로봇을 제어하며, 이 입력에 대해 정밀 조정 없이도 정 politicy가 변화하는 명령에 자연스럽게 반응한다.
실험 결과
연구 질문
- RQ1운동과 탐색을 위한 단일 정 politicy의 종단 간 훈련이 기존의 속도 추적 접근 방식에 비해 더 민첩하고 적응력 있는 행동을 이끌 수 있는가?
- RQ2최종 보상의 시간에 따라 변화하는 형태가 다리가 있는 로봇에서 복잡한 행동의 출현에 어떤 영향을 미치는가?
- RQ3시뮬레이션에서 훈련된 정 politicy가 점프나 등반과 같은 동적 조작을 포함한 실제 작업에 일반화될 수 있는가?
- RQ4속도 추적 제약 조건을 제거함으로써 정 politicy가 더 에너지 효율적인 보행을 발견하고 어려운 지형에서 성공률을 향상시킬 수 있는가?
- RQ5왜 정 politicy는 오직 한 방향으로만 걷는 경향을 보이며, 이러한 방향성 편향은 어떻게 완화할 수 있는가?
주요 결과
- 종단 간 정 politicy는 계단, 0.55m 상자, 0.6m 간극과 같은 도전적인 지형에서 속도 추적 기준 대비 더 높은 성공률을 달성했다.
- 로봇은 간극을 점프로 넘고 고속으로 계단을 등반하는 등 동적 조작을 성공적으로 수행했으며, 이는 이전에 속도 추적 기반 접근 방식으로는 달성할 수 없었던 행동을 보여주었다.
- 정 politicy는 속도 추적 접근 방식에서 사용되는 표준 트로트 보행 방식에서 벗어나 더 에너지 효율적인 보행을 학습했으며, 더 자연스럽고 유기적인 움직임을 보였다.
- 시간에 따라 변화하는 보상 형태가 성공적인 훈련에 필수적이었으며, 이와 같은 형태가 없었을 경우 정 politicy는 복잡한 행동을 학습하지 못했다.
- 일반화 성공에도 불구하고 정 politicy는 손실 곡면의 局부 최소값으로 인해 오직 한 방향으로만 걷는 경향을 보였으며, 이는 방향성 편향이었다.
- 학습된 액추에이터 모델과 토크 잘라내기 기법을 사용하여 실제 하드웨어에 배포가 가능했지만, 복잡한 작업에서는 인식 및 상태 추정이 여전히 제한 요소로 남아 있었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.