[논문 리뷰] Robust Recovery Controller for a Quadrupedal Robot using Deep Reinforcement Learning
이 논문은 계층적이고 모델 프리(deep RL) 컨트롤러를 세 가지 행동(자세 바로잡기, 일어서기, 주행)과 행동 선택기, 높이 추정기를 갖추어 ANYmal이 낙상에서 회복할 수 있게 한다; 100회 이상의 시도에서 성공률은 97%를 넘고 5초 이내에 회복한다.
The ability to recover from a fall is an essential feature for a legged robot to navigate in challenging environments robustly. Until today, there has been very little progress on this topic. Current solutions mostly build upon (heuristically) predefined trajectories, resulting in unnatural behaviors and requiring considerable effort in engineering system-specific components. In this paper, we present an approach based on model-free Deep Reinforcement Learning (RL) to control recovery maneuvers of quadrupedal robots using a hierarchical behavior-based controller. The controller consists of four neural network policies including three behaviors and one behavior selector to coordinate them. Each of them is trained individually in simulation and deployed directly on a real system. We experimentally validate our approach on the quadrupedal robot ANYmal, which is a dog-sized quadrupedal system with 12 degrees of freedom. With our method, ANYmal manifests dynamic and reactive recovery behaviors to recover from an arbitrary fall configuration within less than 5 seconds. We tested the recovery maneuver more than 100 times, and the success rate was higher than 97 %.
연구 동기 및 목표
- 네발 로봇의 견고한 낙상 복구 문제에 대응한다.
- 모델 프리(deep RL)를 사용하여 수작업으로 설계된 회복 궤적에 의존하지 않도록 한다.
- 복합적 회복 작업을 위해 여러 학습된 행동을 구성하는 계층형 컨트롤러를 개발한다.
- 고충실도 시뮬레이션과 도메인 무작위화를 통해 신뢰할 수 있는 시뮬레이션-실세계 전이(sim-to-real)를 보장한다.
- 다양한 낙상 시나리오에 걸쳐 ANYmal 로봇에서 접근법을 실험적으로 검증한다.
제안 방법
- 제어를 세 가지 학습된 행동(자세 바로잡기, 일어서기, 주행)으로 분해하고 학습된 행동 선택기로 조정한다.
- 각 행동을 시뮬레이션에서 TRPO+GAE를 사용하고 작업별 비용 함수와 초기 상태 분포로 학습한다.
- 정책 출력은 저항력이 낮은 PD 제어기를 위한 12D 관절 위치 목표로 표현하여 학습 효율성과 견고성을 향상시킨다.
- 배치 시에는 베이스 포즈 추정에 TSIF를 사용하고 신경망 높이 추정기를 통해 안정적인 베이스 높이 인식을 유지한다.
- SEA용 데이터 기반 구동기 모델과 무작위화된 물리적 특성을 구현하여 시뮬레이션-실세계 전달을 개선한다.
- 사전에 학습된 행동들 중에서 선택하도록 행동 선택기를 학습시키고 전이 및 견고성을 최적화하며, 관측 데이터로 학습된 동시 높이 추정기가 함께 작동한다.
실험 결과
연구 질문
- RQ1계층적 신경정책 프레임워크가 4족 로봇의 임의의 낙상 구성에서도 회복할 수 있는가?
- RQ2학습된 선택기가 있는 개별 행동 학습이 회복 작업에서 모놀리식 정책 학습과 어떻게 비교되는가?
- RQ3높이 추정기를 도입하는 것이 회복 및 행동 전환 중 신뢰성을 향상시키는가?
- RQ4현실 세계에서의 교란과 모델링 오차에 대한 접근법의 강인성은 어느 정도인가?
주요 결과
- 복구 컨트롤러는 ANYmal이 임의의 낙상 구성에서 5초 이내에 회복하도록 한다.
- 이 방법은 실제 로봇에서 100회가 넘는 시도에서 성공률이 97%를 초과했다.
- 시뮬레이션과 실제 배치에서 행동 전환 시점과 동작이 매우 유사하게 나타났다.
- 높이 추정기는 안정적인 베이스 높이 추정치를 유지하고 원치 않는 행동 전환을 피하는 데 결정적이다.
- 간단한 수동으로 구성된 FSM은 작동할 수 있지만 더 강건하지 않고 학습된 행동 선택기보다 더 많은 설계 반복이 필요하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.