[논문 리뷰] Deep Whole-Body Control: Learning a Unified Policy for Manipulation and Locomotion
저자들은 단일 통합 정책으로 다리 달린 사족로봇과 부착 팔을 동시에 조작 및 이동시키고, Regularized Online Adaptation 모듈로 Sim-to-Real 간 다리를 놓으며 Training 속도 향상을 위한 Advantage Mixing을 적용한다.
An attached arm can significantly increase the applicability of legged robots to several mobile manipulation tasks that are not possible for the wheeled or tracked counterparts. The standard hierarchical control pipeline for such legged manipulators is to decouple the controller into that of manipulation and locomotion. However, this is ineffective. It requires immense engineering to support coordination between the arm and legs, and error can propagate across modules causing non-smooth unnatural motions. It is also biological implausible given evidence for strong motor synergies across limbs. In this work, we propose to learn a unified policy for whole-body control of a legged manipulator using reinforcement learning. We propose Regularized Online Adaptation to bridge the Sim2Real gap for high-DoF control, and Advantage Mixing exploiting the causal dependency in the action space to overcome local minima during training the whole-body system. We also present a simple design for a low-cost legged manipulator, and find that our unified policy can demonstrate dynamic and agile behaviors across several task setups. Videos are at https://maniploco.github.io
연구 동기 및 목표
- 팔과 다리 제어를 긴밀히 조정하여 다리 달린 로봇에서 모바일 조작 가능성을 촉진한다.
- 조작과 이동을 하나의 엔드투엔드 정책으로 통합한다.
- 두 단계의 교사-학생 구성을 필요로 하지 않는 시뮬레이션-실세계 전이(Sim-to-Real)를 다룬다.
- 저비용 하드웨어 플랫폼과 다양한 작업 설정을 통해 견고한 학습을 보여준다.
제안 방법
- 기저(base), 팔, 다리 상태와 이전 동작 및 환경 외재인자(extrinsics)를 입력으로 받아 팔과 다리의 목표 관절 위치를 출력하는 단일 신경 정책 π를 형식화한다.
- PPO를 사용하여 조작과 이동 보상을 결합한 강화학습으로 학습한다.
- 정책 업데이트 중 조작 및 이동 이점을 혼합해 신용 할당을 분해하기 위해 Advantage Mixing을 도입한다.
- 온보드 관찰에서 유추된 z_phi로 정규화하는 것을 통해 privileged 시뮬레이션 데이터에서 환경 외재인자 잠재 변수 z_mu를 학습하고 이를 통해 Sim-to-Real 간 다리를 놓기 위한 Regularized Online Adaptation을 제안한다.
- 팔과 다리의 관절 공간 위치 제어를 PD 토크로 사용하여 학습을 단순화하고 Sim-to-Real 간 간격을 줄인다.
- 실험을 위한 저비용 무선 하드웨어 플랫폼(Go1 다리로봇에 WidowX 팔)을 제공한다.
실험 결과
연구 질문
- RQ1단일 통합 정책이 분리되거나 부분적으로 결합된 제어기보다 다리 달린 이동과 팔 조작을 더 효과적으로 조정할 수 있는가?
- RQ2Advantage Mixing이 학습 속도를 높이고 동시 조작 및 이동에 대한 신용 할당을 개선하는가?
- RQ3Regularized Online Adaptation이 두 단계의 교사-학생 파이프라인 없이도 강건한 시뮬레이션-실세계 전이를 제공할 수 있는가?
주요 결과
| 방법 | 생존율 | 베이스 가속도 | 속도 오차 | EE 오차 | 총 에너지 |
|---|---|---|---|---|---|
| Unified (Ours) | 97.1±0.61 | 1.00±0.03 | 0.31±0.03 | 0.63±0.02 | 50±0.90 |
| Separate | 92.0±0.90 | 1.40±0.04 | 0.43±0.07 | 0.92±0.10 | 51±0.30 |
| Uncoordinated | 94.9±0.61 | 1.03±0.01 | 0.33±0.01 | 0.73±0.02 | 50±0.28 |
- 단일 통합 정책은 여러 지표에서 분리되거나 비협조적 베이스라인보다 뛰어나 생존률이 더 높고 에너지 사용은 동등하거나 더 낮다.
- Advantage Mixing은 학습 속도를 높이고 조작 및 이동 모두에서 명령 추종을 향상시켜 수렴 시간을 단축한다.
- Regularized Online Adaptation은 Rapid Motor Adaptation 및 Domain Randomization보다 더 나은 시뮬레이션-실세계 전이를 보이며 모방 오차가 작고 EE 추적이 향상된다.
- 단일 정책은 팔의 작업 공간을 확장하고 외란 하에서의 안정성을 향상시키며, 다리와 팔 사이의 강력한 전신 협응을 시사한다.
- 현실 세계 실험에서 민첩하고 조정된 다리-팔 동작과 basline MPC+IK 컨트롤러에 비해 우수한 작업 성공률과 속도를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.