QUICK REVIEW

[논문 리뷰] Legged Locomotion in Challenging Terrains using Egocentric Vision

Ananye Agarwal, Ashish Kumar|arXiv (Cornell University)|2022. 11. 14.

Robotic Locomotion and Control인용 수 31

한 줄 요약

이 논문은 egocentric depth 비전을 활용해 계단, 연석, 디딤석, 간격을 가로지는 소형 사족보행 로봇용 엔드-투-엔드 주행 시스템을 제시하며, 시뮬레이션에서 두 단계 학습 접근법으로 학습되고 실세계에 배치된다.

ABSTRACT

Animals are capable of precise and agile locomotion using vision. Replicating this ability has been a long-standing goal in robotics. The traditional approach has been to decompose this problem into elevation mapping and foothold planning phases. The elevation mapping, however, is susceptible to failure and large noise artifacts, requires specialized hardware, and is biologically implausible. In this paper, we present the first end-to-end locomotion system capable of traversing stairs, curbs, stepping stones, and gaps. We show this result on a medium-sized quadruped robot using a single front-facing depth camera. The small size of the robot necessitates discovering specialized gait patterns not seen elsewhere. The egocentric camera requires the policy to remember past information to estimate the terrain under its hind feet. We train our policy in simulation. Training has two phases - first, we train a policy using reinforcement learning with a cheap-to-compute variant of depth image and then in phase 2 distill it into the final policy that uses depth using supervised learning. The resulting policy transfers to the real world and is able to run in real-time on the limited compute of the robot. It can traverse a large variety of terrain while being robust to perturbations like pushes, slippery surfaces, and rocky terrain. Videos are at https://vision-locomotion.github.io

연구 동기 및 목표

고도 맵 없이 egocentric depth를 이용한 엔드-투-엔드 로컬모션 시연.
계단, 간격, 디딤석을 포함한 다양한 지형을 소형 사족보행 로봇이 가로지를 수 있도록 함.
저가 depth 프록시를 활용한 효율적 학습을 위한 이단계(training) 파이프라인 개발.
지각 노이즈 및 교란에 강건한 시뮬레이션 학습 정책의 실세계 이전(전이) 시연.

제안 방법

두 단계 학습: 1단계는 로봇 하부의 저가 지형 질의인 scandots를 사용한 강화학습으로 기준 정책 π1를 생성; 2단계는 감독학습을 통해 π1를 깊이 기반 정책 π2로 증류한다.
1단계는 recurrent memory(GRU)를 갖춘 PPO를 사용해 scandots, proprioception, 지시 속도(commanded velocities)를 목표 관절각으로 매핑; 2단계는 시야와 고유감각 입력을 분리하는 RMA 아키텍처를 사용하거나 단일 GRU 기반 정책을 사용한다.
2단계는 온보드 센싱 입력(depth d, proprioception x)으로 증류하는데, (a) 깊이 전처리를 ConvNet으로 수행하는 단일 모형(monolithic) 방식으로 π1를 따라 학습하는 DAgger로 학습; 또는 (b) GRU를 통해 γ(지형 기하)와 z(환경 매개변수)를 추정하고 이를 기본 MLP 정책에 입력하는 RMA 방식.
학습 환경은 지형 커리큘럼과 매개변수 무작위 교란을 활용해 견고성을 높이고; 보행 패턴에 대한 사전 가정은 부여하지 않아 등장 보행이 개발되도록 한다.

실험 결과

연구 질문

RQ1고도 지도나 보행 패턴의 사전 가정 없이 egocentric depth 비전으로 소형 사족보행 로봇이 도전적인 지형을 넘을 수 있는가?
RQ2스캔도츠(RL)로 학습하고 깊이 기반 제어로의 감독 증류를 거치는 두 단계 학습 파이프라인이 하드웨어에서 신뢰 가능한 시뮬레이션-실세계 전이를 가능하게 하는가?
RQ3단일 GRU 기반 모형과 RMA 아키텍처가 엔드-투-엔드 시각-운동 제어에서 어떻게 비교되는가?
RQ4시각 기반 제어가 교란(밀기, 미끄러운 표면, 거친 지형) 및 지각 노이즈에 대한 견고성에 미치는 영향은 무엇인가?

주요 결과

Terrain	RMA Avg X-Displacement (↑)	MLith Avg X-Displacement (↑)	Noisy Avg X-Displacement (↑)	Blind Avg X-Displacement (↑)	RMA Mean Time to Fall (s)	MLith Mean Time to Fall (s)	Noisy Mean Time to Fall (s)	Blind Mean Time to Fall (s)
Slopes	43.98	44.09	36.14	34.72	88.99	85.68	70.25	67.07
Stepping Stones	18.83	20.72	1.09	1.02	34.30	41.32	2.51	2.49
Stairs	31.24	42.40	6.74	16.64	69.99	90.48	15.77	39.17
Discrete Obstacles	40.13	28.64	29.08	32.41	85.17	57.53	59.30	66.33
Total	134.18	135.85	73.05	84.79	278.45	275.01	147.83	175.06

제안된 시스템은 전방 단일 깊이 카메라를 사용해 소형 사족보행 로봇에서 실시간 제어를 가능하게 하며 계단, 연석, 디딤석, 간격을 가로지른다.
scandots를 이용한 2단계 학습에 이은 감독 증류로 성공적인 시뮬레이션-실세계 전이를 달성하며 2단계 정책은 제한된 온보드 계산으로 50 Hz로 작동한다.
단일 GRU 기반과 RMA 두 아키텍처 모두 맹목적 baselines 및 고도 지도 기반 baselines보다 다양한 지형에서 우수하며 디딤석과 간격을 포함한다.
시뮬레이션에서 시각 기반 방법은 지형 전반에서 이동 거리와 낙하까지의 시간에서 substantial gains를 보이며: 디딤석에서 최대 약 20 m, 계단 및 이산 장애물에서 실패 전까지 수십 미터에 이르고 baselines보다 성능이 크게 우수하다.
실세계 실험에서 Upstairs, downstairs, and gaps에서 100% 성공, stepping stones에서 94% 성공; 맹목 baselines는 gaps와 stepping stones에서 실패.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.