QUICK REVIEW

[논문 리뷰] Waypoint-Based Imitation Learning for Robotic Manipulation

Lucy Xiaoyang Shi, Archit Sharma|arXiv (Cornell University)|2023. 07. 26.

Robot Manipulation and Learning인용 수 8

한 줄 요약

논문은 자동 웨이포인트 추출(AWE)을 소개하며, 시연에서 재구성 예산 기반의 선형 보간을 사용해 최소한의 웨이포인트 집합을 자동으로 선택하는 사전처리 방법이다. AWE는 행동 복제(BC)에 plug-in 가능하고 확산 정책과 ACT를 개선하여 시뮬레이션에서의 성공률을 최대 25%, 실제 양손 로봇 작업에서 4–28%까지 상승시키고 의사결정 시점을 단축한다.

ABSTRACT

While imitation learning methods have seen a resurgent interest for robotic manipulation, the well-known problem of compounding errors continues to afflict behavioral cloning (BC). Waypoints can help address this problem by reducing the horizon of the learning problem for BC, and thus, the errors compounded over time. However, waypoint labeling is underspecified, and requires additional human supervision. Can we generate waypoints automatically without any additional human supervision? Our key insight is that if a trajectory segment can be approximated by linear motion, the endpoints can be used as waypoints. We propose Automatic Waypoint Extraction (AWE) for imitation learning, a preprocessing module to decompose a demonstration into a minimal set of waypoints which when interpolated linearly can approximate the trajectory up to a specified error threshold. AWE can be combined with any BC algorithm, and we find that AWE can increase the success rate of state-of-the-art algorithms by up to 25% in simulation and by 4-28% on real-world bimanual manipulation tasks, reducing the decision making horizon by up to a factor of 10. Videos and code are available at https://lucys0.github.io/awe/

연구 동기 및 목표

BC의 의사결정 시야를 자동 웨이포인트 선택을 통해 단축함으로써 모방학습의 누적 오차를 줄인다.
시현 데이터에서 고유 수축(supervision 없이)의 웨이포인트 추출을 제공한다.
AWE와 최첨단 BC 방법 및 실제 로봇 작업과의 호환성을 입증한다.

제안 방법

실제 궤적과 그 선형 보간 재구성 간의 최대 고유감지 거리(proprioceptive distance)로 재구성 손실 L을 정의한다.
동적 프로그래밍을 사용해 L(f(W), tau) <= eta가 되도록 최소 수의 웨이포인트 W를 선택한다.
다음 웨이포인트로 재레이블된 훈련 데이터를 활용해 BC가 원시 행동이 아닌 웨이포인트를 예측하도록 시연을 전처리한다.
AWE를 확산 정책 및 Transformer를 이용한 액션 청크(ACT)와 결합해 시뮬레이션 및 실제 작업에서 성능을 평가한다.
정책 표현력과 에러 예산 eta가 웨이포인트 수와 성능에 미치는 영향을 비롯한 실용적 고려사항을 논의한다.

Figure 1: Our approach reduces the horizon of imitation learning by extracting waypoints from demonstrations.

실험 결과

연구 질문

RQ1AWE가 긴 호라이즌 조작 작업에서 대표적인 BC 방법의 성능을 향상시킬 수 있는가?
RQ2AWE가 시뮬레이션 벤치마크와 실제 로봇에서 실제 인간 시연으로부터 효과적으로 학습 가능하게 하는가?
RQ3에러 예산 eta와 정책 표현력은 AWE의 이점을 어떻게 좌우하는가?
RQ4AWE가 다양한 작업에서 확산 기반 및 트랜스포머 기반 BC 아키텍처와 보완적인가?
RQ5웨이포인트 추출을 위해 고유감지 신호만 의존하는 한계는 무엇인가?

주요 결과

AWE + ACT는 시뮬레이션의 두 가지 양손 조작 작업에서 ACT보다 성능이 크게 향상되었으며(최대 25% 더 높은 성공률), 실제 작업에서도 향상되었다( Screwdriver Handover, Wiping Table, Coffee Making에서 ACT 대비 8–28% 향상).
로보미믹(RoboMimic) 작업 전반에서 AWE는 시연 수가 30에서 200으로 증가하는 동안 확산 정책의 성능을 지속적으로 향상시키며, 긴 호라이즌 작업에서 주목할 만한 이득이 나타난다(예: Square에서 30 데모로 18%).
AWE는 실제 훈련 시점을 7배에서 10배까지 단축시켜 많은 경로의 구간을 선형 보간 기반으로 낮은 수준의 제어를 가능하게 한다.
실제 로봇 실험에서 AWE가 세 가지 손재주가 필요한 작업의 성공률을 향상시키며, Coffee Making에서 최대 28%의 개선과 Screwdriver Handover 및 Wiping the Table에서 일관된 이득을 보인다.
AWE의 이점은 웨이포인트 라벨링으로 인해 다모드(multimodality)를 처리하기 위한 표현력이 풍부한 정책 계열(예: GMMs)을 사용할 때에만 나타난다; 단일 모드 BC는 AWE에서 악화될 수 있다.

Figure 2: Visualizing the loss $\mathcal{L}$ .

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.