[논문 리뷰] Multi-Agent Manipulation via Locomotion using Hierarchical Sim2Real
본 논문은 네발 보행 로봇이 운동을 통한 조작을 달성하기 위한 계층적 sim2real 학습을 제시하며, 모듈식 저수준 보행 정책과 도메인 무작위화를 통한 고수준 목표 제안 제어기를 통해 현실 세계의 다중 에이전트 작업으로의 제로샷 이전을 가능하게 한다.
Manipulation and locomotion are closely related problems that are often studied in isolation. In this work, we study the problem of coordinating multiple mobile agents to exhibit manipulation behaviors using a reinforcement learning (RL) approach. Our method hinges on the use of hierarchical sim2real -- a simulated environment is used to learn low-level goal-reaching skills, which are then used as the action space for a high-level RL controller, also trained in simulation. The full hierarchical policy is then transferred to the real world in a zero-shot fashion. The application of domain randomization during training enables the learned behaviors to generalize to real-world settings, while the use of hierarchy provides a modular paradigm for learning and transferring increasingly complex behaviors. We evaluate our method on a number of real-world tasks, including coordinated object manipulation in a multi-agent setting. See videos at https://sites.google.com/view/manipulation-via-locomotion
연구 동기 및 목표
- 여러 다리 에이전트가 협력하여 조작 작업을 수행하도록 조율하는 문제를 동기 부여하고 해결한다.
- 저수준 목표 도달 정책이 보행을 담당하고 고수준 정책이 저수준 정책의 목표를 지시하는 두 수준의 계층적 RL 프레임워크를 제안한다.
- 단계적(계층적) 방식으로 도메인 무작위화를 활용하여 실제 세계 미세조정 없이 강인한 sim2real 이전을 달성한다.
- 회피, 블록 밀기, 두 에이전트가 긴 블록을 밀어 목표 위치로 보내는 작업에서 실제 로봇으로의 제로샷 이전을 시연한다.
제안 방법
- 저수준 정책 π_lo를 평면상의 무작위로 샘플링된 2D 목표에 도달하도록 학습시키되, 목표까지의 음수 거리 및 보정 항목(upright, heading, bonus)을 포함하는 내재적 보상 r_lo를 사용한다.
- π_lo를 고정하고 고수준 정책 π_hi를 학습시켜 고수준 행동을 생성하고 이를 고정된 변환 h를 통해 저수준 목표로 매핑하며, r_hi로 짧은 시야 보상을 집계하는 작업별 보상을 사용한다.
- 제로샷 이전을 개선하기 위해 저수준과 고수준 학습에 대해 도메인 무작위화를 각각 사용하고, 지형을 다양화하기 위해 시뮬레이션에서 무작위 높이 필드를 포함한다.
- 실제 로봇에 고정된 계층적 정책을 실세계 미세조정 없이 배치하여 제로샷 이전을 수행하고 잔여 차이를 반영하기 위해 고수준 행동에 노이즈를 추가한다.
- 프레임워크를 세 가지 네발걸이 작업(Avoid, Push, Coordinate)와 다중 에이전트 Coordinate 작업에 적용하여 보행을 통한 협력과 조작을 시연한다.
실험 결과
연구 질문
- RQ1계층적 sim2real이 시뮬레이션에서 학습된 운동을 통한 조작의 강인한 제로샷 이전을 실제 다중 에이전트 작업으로 확실히 가능하게 할 수 있는가?
- RQ2저수준 보행과 고수준 작업 제어로 학습을 모듈화하는 것이 도메인 무작위화 요구사항과 이전 성능에 어떤 영향을 미치는가?
- RQ3네발 보행 조작 작업에서 실제 세계로의 이전에 가장 유익한 각 계층 수준의 도메인 무작위화는 무엇인가?
- RQ4두 마리의 네발 로봇이 실제 세계에서 긴 블록을 목표 위치와 방향으로 밀어내도록 얼마나 잘 협력할 수 있는가?
- RQ5이 작업들에서 계층 구조와 고수준 무작위화의 중요성을 드러내는 어떤 제거 실험(ablation)이 있는가?
주요 결과
- 도메인 무작위화를 가진 계층적 sim2real을 사용한 보행 주도 조작 작업에서 제로샷 실제 세계 이전이 가능하다.
- 계층 구조는 비계층적 제거 실험과 비교하여 Avoid, Push, Coordinate 작업에서 성공률을 크게 향상시킨다.
- 고정된 저수준 정책에 더해 고수준 무작위화를 도입하면 추가 이득이 생겨 실제 세계 실험에서 Coordinate 작업의 성공률이 최대 90%까지 달성된다.
- 특히 무작위 높이 필드를 포함하는 저수준 무작위화는 강건한 보행 보행에 필수적이며 실제 세계 성능을 크게 증가시킨다.
- 고수준 무작위화가 없어도 시뮬레이션의 고수준 학습으로도 양호한 제로샷 실제 결과를 얻을 수 있으며, 타깃된 고수준 무작위화를 추가하면 점진적 개선이 있다.
- 표 기반 결과는 계층적 구성과 비계층적 구성 간의 명확한 성능 차이를 보여주며, 확장 가능한 sim2real 도메인 무작위화를 위해 계층의 필요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.