QUICK REVIEW

[논문 리뷰] ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

Wenlong Huang, Chen Wang|arXiv (Cornell University)|2024. 09. 03.

Semantic Web and Ontologies인용 수 8

한 줄 요약

ReKep은 3D에서 키포인트 간의 관계를 근거로 하는 Relational Keypoint Constraints (ReKep)로 조작 작업을 표현하며, 언어 및 RGB-D 관찰로 자동 생성되고, 다단계의 야생 환경 로봇 조작을 실시간으로 위계적 최적화를 통해 해결합니다.

ABSTRACT

Representing robotic manipulation tasks as constraints that associate the robot and the environment is a promising way to encode desired robot behaviors. However, it remains unclear how to formulate the constraints such that they are 1) versatile to diverse tasks, 2) free of manual labeling, and 3) optimizable by off-the-shelf solvers to produce robot actions in real-time. In this work, we introduce Relational Keypoint Constraints (ReKep), a visually-grounded representation for constraints in robotic manipulation. Specifically, ReKep is expressed as Python functions mapping a set of 3D keypoints in the environment to a numerical cost. We demonstrate that by representing a manipulation task as a sequence of Relational Keypoint Constraints, we can employ a hierarchical optimization procedure to solve for robot actions (represented by a sequence of end-effector poses in SE(3)) with a perception-action loop at a real-time frequency. Furthermore, in order to circumvent the need for manual specification of ReKep for each new task, we devise an automated procedure that leverages large vision models and vision-language models to produce ReKep from free-form language instructions and RGB-D observations. We present system implementations on a wheeled single-arm platform and a stationary dual-arm platform that can perform a large variety of manipulation tasks, featuring multi-stage, in-the-wild, bimanual, and reactive behaviors, all without task-specific data or environment models. Website at https://rekep-robot.github.io/.

연구 동기 및 목표

작업 특화 데이터나 환경 모델을 사용하지 않고 로봇 조작을 위한 다재다능하고 확장 가능한 제약 기반 표현을 제공한다.
RGB-D 입력과 자연어 지시로부터 대형 비전 모델(LVM) 및 비전-언어 모델(VLM)을 이용해 제약 조건 명세를 자동화한다.
지각-행동 루프를 통해 SE(3) 엔드 이펙터 궤적을 실시간으로 생성하기 위한 위계적 최적화를 가능하게 한다.
실제 로봇에서 다단계의 야생 환경, 양손 조작, 반응적 조작을 작업 특화 데이터 없이 시연한다.

제안 방법

Relational Keypoint Constraints (ReKep)를 3D 키포인트를 수치적 비용으로 매핑하는 파이썬 함수로 정의하며, f(k) ≤ 0일 때 제약 조건이 충족된 것으로 본다.
작업을 단계로 분해하고 각 단계에 서브목표 제약 및 경로 제약을 두어 SE(3) 엔드 이펙터 포즈에 대한 위계적 최적화를 가능하게 한다.
단계별 서브목표 및 경로 문제를 제약 최적화와 보조 비용(예: 충돌 회피, 도달성)을 사용해 해결하며, SciPy(Dual Annealing + SLSQP)로 ~1초의 워밍 업 시작과 ~10 Hz 재계획을 제공한다.
강성 가정 하에서 순방향 키포인트 모델을 사용해 짧은 시간 구간(0.1s) 동안 엔드 이펙터 모션과 키포인트 변화의 관계를 파악하고, 고주파수의 폐루프 제어를 가능하게 한다.
RGB-D와 자유 형식 언어로부터 ReKep 생성을 자동화하기 위해 DINOv2로 키포인트를 제안하고 GPT-4o를 사용해 키포인트에 대한 산술 관계(거리, 점곱, 회전)로 표현된 ReKep 파이썬 제약 조건을 출력한다.
SAM 마스크와 클러스터링으로 키포인트를 제안하고 세계 좌표로 투사하며, 실시간 피드백을 위해 20 Hz로 키포인트를 추적한다.

실험 결과

연구 질문

RQ1ReKep이 태스크 특화 데이터 없이 언어 및 RGB-D 입력으로부터 조작 행동을 자동으로 형성하고 합성할 수 있는가?
RQ2야생 환경에서 새로운 물체와 조작 전략에 시스템이 얼마나 잘 일반화되는가?
RQ3각 시스템 모듈의 실패 모드와 전체 성능에 대한 기여도는 무엇인가?
RQ4실시간 재계획을 통한 다단계, 양손 및 반응적 조작이 가능한가?

주요 결과

이 프레임워크는 두 대의 로봇 플랫폼에서 태스크 특화 데이터나 환경 모델 없이 다단계의 야생 환경, 양손 조작 및 반응적 조작을 달성한다.
LVM으로부터의 자동화된 ReKep 생성은 언어와 RGB-D 관찰로부터 오픈 월드 사양을 가능하게 하며, 제약은 의미 키포인트에 근거한다.
실시간 폐루프 제어(~10 Hz)는 단계별 서브목표와 경로 제약을 해결하는 위계적 최적화를 통해 달성된다.
이 방법은 교란에 대한 강건한 성능과 반응성을 보여주며, 작업과 조건에 따라 성공률이 다르게 나타나고, 주요 실패 모드는 포인트 트래킹 및 제안/비전-언어 모델 정확도에서 확인된다.
제거 실험은 키포인트 트래킹과 제안/비전-언어 모델 모듈이 실패의 주요 기여 요소임을 시사하는 반면, 최적화는 시간 예산 내에서 비교적 견고함을 유지한다.
의상 접기 연구는 GPT-4o 지도로 다양하고 범주별 전략이 나타내며 개방형 전략적 행동을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.