[논문 리뷰] AnyPlace: Learning Generalized Object Placement for Robot Manipulation
AnyPlace는 비전-언어 모델을 사용해 배치 위치를 제안하고 확산 기반 로컬 포즈 예측기로 다양하고 정밀한 배치 포즈를 생성하며, 합성 데이터로만 학습하고 실제 로봇으로의 이전이 가능한 방법입니다.
Object placement in robotic tasks is inherently challenging due to the diversity of object geometries and placement configurations. To address this, we propose AnyPlace, a two-stage method trained entirely on synthetic data, capable of predicting a wide range of feasible placement poses for real-world tasks. Our key insight is that by leveraging a Vision-Language Model (VLM) to identify rough placement locations, we focus only on the relevant regions for local placement, which enables us to train the low-level placement-pose-prediction model to capture diverse placements efficiently. For training, we generate a fully synthetic dataset of randomly generated objects in different placement configurations (insertion, stacking, hanging) and train local placement-prediction models. We conduct extensive evaluations in simulation, demonstrating that our method outperforms baselines in terms of success rate, coverage of possible placement modes, and precision. In real-world experiments, we show how our approach directly transfers models trained purely on synthetic data to the real world, where it successfully performs placements in scenarios where other models struggle -- such as with varying object geometries, diverse placement modes, and achieving high precision for fine placement. More at: https://any-place.github.io.
연구 동기 및 목표
- 다양한 물체와 배치 모드(삽입, 적재, 매달기) 전반에 걸쳐 물체 배치를 일반화한다.
- 고수준 VLM을 활용해 후보 배치 위치를 식별하고 저수준 예측을 집중화한다.
- 합성 데이터만으로 학습하고 실제 세계 TASK로 제로샷 전이를 입증한다.
- 높은 정밀도와 모드 커버리지를 갖춘 다중 모드 배치 예측을 달성한다.
제안 방법
- 두 단계 파이프라인: 비전-언어 모델(VLM)에 의한 높은 수준의 배치 위치 제안과 저수준의 정밀한 배치 포즈 예측기.
- Molmo VLM을 사용해 이산적 배치 위치를 제안하고 로컬 영역을 잘라 확산 기반 포즈 예측기로 전달한다.
- 확산 기반 디코더가 객체와 베이스 간의 다수의 상대 SE(3) 변환을 Transformer-encoder를 통해 교차 객체 특징으로 예측한다.
- 삽입, 적재, 매달기 구성을 다루는 13개 범주에 걸친 1,489개 객체의 완전 합성 데이터셋.
- 학습 손실은 포즈 정제 감독을 위해 평행이동(Translation), 회전(Geodesic), Chamfer 거리 손실을 조합한다.
- 로봇 실행 파이프라인은 Grasps를 위한 AnyGrasp와 모션 계획을 위한 cuRobo를 사용; 거절 샘플링으로 실행 가능한 그랩을 보장한다.
실험 결과
연구 질문
- RQ1VLM-가이드 고수준 모듈이 보지 못한 객체에서도 강건하고 다중 모드의 배치 위치를 가능하게 할 수 있는가?
- RQ2저수준 모델을 로컬 영역으로 제한하면 정밀도 및 새로운 기하학적 형태에 대한 일반화가 향상되는가?
- RQ3완전 합성 데이터세트가 시연 없이도 실제 세계의 배치 작업으로 얼마나 잘Transfer되는가?
- RQ4확산 기반 디코더가 멀티모달 배치 작업에서 에너지 기반 또는 회귀 기반 벤치마크를 능가하는가?
- RQ5일태스크 학습과 다태스크 학습 간의 일반화된 물체 배치에서의 트레이드오프는 무엇인가?
주요 결과
| 방법 | 객체 적재 | 피그 삽입 | 컵 매달기 | 병 삽입 |
|---|---|---|---|---|
| NSM (Single-task) | 76.57 | 7.63 | 35.54 | 18.70 |
| RPDiff (Single-task) | 80.34 | 22.94 | 92.02 | 16.51 |
| AnyPlace-EBM (Single-task) | 80.04 | 8.44 | 91.57 | 65.64 |
| AnyPlace (Single-task) | 80.16 | 30.95 | 94.80 | 92.74 |
| NSM (Multi-task) | 77.55 | 7.69 | 35.22 | 9.87 |
| RPDiff (Multi-task) | 80.21 | 22.33 | 94.05 | 24.26 |
| AnyPlace-EBM (Multi-task) | 78.95 | 10.75 | 90.87 | 57.24 |
| AnyPlace (Multi-task) | 78.28 | 24.99 | 94.12 | 75.25 |
- AnyPlace는 합성 작업에서 성공률 및 모드 커버리지 측면에서 NSM, RPDiff, AnyPlace-EBM 벤치마크를 능가한다.
- 단일 태스크 평가에서 AnyPlace는 병 삽입 및 컵 매달기 성능이 각각 92.74% 및 94.80%로 높은 성과를 보인다.
- 다중 태스크 평가에서 AnyPlace는 병 삽입 75.25% 및 컵 매달기 94.12% 등으로 강한 성능을 유지한다.
- 확산 기반 AnyPlace 모델은 특히 병 삽입과 같은 어려운 작업에서 에너지 기반 벤치마크보다 더 나은 다중 모드 배치 커버리지와 더 높은 정밀도를 제공한다.
- 실세계 실험에서 병 삽입에 대해 80%의 성공률을 보여 합성 학습에서 실세계로의 효과적 시뮬레이션-현실 전달이 가능함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.