QUICK REVIEW

[논문 리뷰] Hyperbolic Multiview Pretraining for Robotic Manipulation

Jin Yang, Ping Wei|arXiv (Cornell University)|2026. 03. 05.

Robot Manipulation and Learning인용 수 0

한 줄 요약

HyperMVP는 쌍곡 공간에서 GeoLink 인코딩을 프리트레이닝하여 로봇 조작을 위한 다중 뷰 3D 표현을 학습하고, 교란 및 작업 전반에 걸친 일반화를 개선합니다. 3D-MOV를 도입하고 Colosseum, RLBench, 실세계 설정에서 강력한 이점을 입증합니다.

ABSTRACT

3D-aware visual pretraining has proven effective in improving the performance of downstream robotic manipulation tasks. However, existing methods are constrained to Euclidean embedding spaces, whose flat geometry limits their ability to model structural relations among embeddings. As a result, they struggle to learn structured embeddings that are essential for robust spatial perception in robotic applications. To this end, we propose HyperMVP, a self-supervised framework for \underline{Hyper}bolic \underline{M}ulti\underline{V}iew \underline{P}retraining. Hyperbolic space offers geometric properties well suited for capturing structural relations. Methodologically, we extend the masked autoencoder paradigm and design a GeoLink encoder to learn multiview hyperbolic representations. The pretrained encoder is then finetuned with visuomotor policies on manipulation tasks. In addition, we introduce 3D-MOV, a large-scale dataset comprising multiple types of 3D point clouds to support pretraining. We evaluate HyperMVP on COLOSSEUM, RLBench, and real-world scenarios, where it consistently outperforms strong baselines across diverse tasks and perturbation settings. Our results highlight the potential of 3D-aware pretraining in a non-Euclidean space for learning robust and generalizable robotic manipulation policies.

연구 동기 및 목표

비유클리드적이고 구조적으로 인지된 표현을 활용해 강인한 로봇 조작을 촉진한다.
3D 포인트 클라우드에서 다중 뷰 쌍곡적 임베딩을 학습하는 자기지도 학습 프레임워크를 개발한다.
다양한 3D 데이터가 다운스트림 작업에 미치는 영향을 연구하기 위해 대규모 3D-MOV 데이터셋을 도입한다.
쌍곡 공간 사전학습이 시뮬레이션과 실세계 로봇 조작에서 일반화를 향상시킨다는 것을 입증한다.
다운스트림 시각운동 정책에 대해 유연한 입력 뷰로 확장 가능한 미세조정을 가능하게 한다.

제안 방법

유클리드 패치 임베딩을 쌍곡 공간(로렌츠 모델)으로 매핑하는 GeoLink 인코더를 갖춘 마스크드 오토인코더(MAE)를 확장한다.
각 3D 포인트 클라우드를 다섯 개의 직교(view) 투영으로 렌더링하고 뷰 특이적 임베딩 및 마스킹을 적용한다.
지수 맵을 통한 리프팅으로 쌍곡 공간으로 올리고, 구조를 강제하기 위해 패치 인식 Top-K 순위상관 및 함의 손실을 포함한 쌍곡 공간 손실을 적용한다.
사전학습 목표는 쌍곡 표현 제약과 재구성 손실을 결합한다(뷰 내 MAE 디코딩 및 뷰 간 MAE 디코딩).
미세조정 동안 GeoLink와 Robotic View Transformer(RVT)를 공동 최적화하여 시각운동 정책을 학습하고, 임의의 뷰 수에 대해 확장 가능하게 한다.

실험 결과

연구 질문

RQ1쌍곡 공간의 다중 뷰 표현이 유클리드 공간을 넘어 3D 인식 로봇 조작의 프리트레이닝을 개선할 수 있는가?
RQ2다양한 3D 데이터(객체 수준 및 장면 수준)가 다운스트림 조작 성능에 어떻게 영향을 미치는가?
RQ3자기지도 학습형 쌍곡 사전학습 목표가 교란 및 작업 전반에 걸쳐 강인한 표현을 만들어내는가?
RQ4미세조정 중에 입력 뷰의 수를 다양하게 조정하도록 프리-학습을 확장하는 것이 가능한가?
RQ5쌍곡 임베딩이 실세계 로봇 조작 환경으로 효과적으로 전달되는가?

주요 결과

HyperMVP는 Colosseum 교란 설정, RLBench 및 실세계 테스트 전반에서 일관되게 베이스라인을 능가한다.
GeoLink를 적용한 쌍곡 사전학습은 유클리드 기반 베이스라인 및 다른 자기지도 방법들에 비해 상당한 이점을 제공한다.
3D-MOV 데이터셋(약 200K 포인트 클라우드와 1M 다중 뷰 이미지)은 다양한 장면 데이터로 효과적인 사전학습을 지원한다.
RLBench에서 HyperMVP는 18개 작업의 평균 성공률에서 최고치를 달성하고 처음부터 RVT로 학습된 것보다 향상된다.
실세계 실험에서 HyperMVP는 더 높은 성공률을 달성하고 교란 하에서 RVT보다 더 나은 강인성을 보이며 특히 고정밀 작업에서 두드러진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.