QUICK REVIEW

[논문 리뷰] Volumetric Grasping Network: Real-time 6 DOF Grasp Detection in Clutter

Michel Breyer, Jen Jen Chung|arXiv (Cornell University)|2021. 01. 04.

Robot Manipulation and Learning참고 문헌 28인용 수 44

한 줄 요약

VGN은 TSDF 부피의 모든 보셀에 대해 6-DOF 그립 품질, 방향, 너비를 예측하여 명시적 충돌 검사 없이도 실시간으로 어수한 장면에서의 그랩을 가능하게 한다. 합성 데이터로 학습하고 GPU 가속 추론으로 대략 10 ms 내에 실제 로봇으로 전이된다.

ABSTRACT

General robot grasping in clutter requires the ability to synthesize grasps that work for previously unseen objects and that are also robust to physical interactions, such as collisions with other objects in the scene. In this work, we design and train a network that predicts 6 DOF grasps from 3D scene information gathered from an on-board sensor such as a wrist-mounted depth camera. Our proposed Volumetric Grasping Network (VGN) accepts a Truncated Signed Distance Function (TSDF) representation of the scene and directly outputs the predicted grasp quality and the associated gripper orientation and opening width for each voxel in the queried 3D volume. We show that our approach can plan grasps in only 10 ms and is able to clear 92% of the objects in real-world clutter removal experiments without the need for explicit collision checking. The real-time capability opens up the possibility for closed-loop grasp planning, allowing robots to handle disturbances, recover from errors and provide increased robustness. Code is available at https://github.com/ethz-asl/vgn.

연구 동기 및 목표

혼잡한 장면에서의 실시간 6-DOF 그립 합성의 동기를 제시한다.
충돌을 명시적으로 체크하지 않고도 3D 장면 정보를 전체적으로 활용한다.
TSDF 입력을 보셀 단위의 그립 품질, 방향, 너비로 매핑하는 엔드-투-엔드 FCN을 개발한다.
추가 파인튜닝 없이 합성 학습에서 실제 로봇 설정으로의 전이를 보여준다.

제안 방법

장면의 TSDF 표현을 FCN의 입력으로 사용한다.
보셀당 세 개의 출력: 그립 품질 q, 방향 r(쿼터니언으로), 그리고 그리퍼 너비 w를 산출한다.
품질, 회전, 너비 항을 결합한 손실로 합성 혼잡한 그립 시도에서 엔드-투-엔드로 학습한다.
회전 손실에서 평행 조그 그리퍼에 대한 대안 정답 방향을 허용하여 대칭 처리 하나를 반영한다.
실행을 위한 상향식 비최대억제(NMS) 및 보셀 마스킹을 적용하여 최고 그립 후보를 추출한다.

실험 결과

연구 질문

RQ1보셀 단위의 엔드-투-엔드 FCN이 혼잡한 장면의 TSDF로부터 직접 고품질의 6-DOF 그립을 예측할 수 있는가?
RQ2전체 3D 장면 정보를 사용하는 것이 부분 관찰에 의존하는 방법들과 비교해 충돌 회피 및 그립 성공률을 향상시키는가?
RQ3VGN으로 실시간 그립 계획이 가능한가, 그리고 시뮬레이션에서만 학습된 모델이 미세 조정 없이 실제 로봇으로 전이될 수 있는가?

주요 결과

VGN은 실시간 계획을 달성하며 GPU에서 추론당 약 10 ms를 기록한다.
시뮬레이션된 혼잡 실험에서 VGN은 성공률과 처리된 물체 수 모두에서 GPD를 능가한다.
0.9–0.95의 그립 품질 임계값에서 VGN은 높은 성공률과 더 많은 물체를 처리하는 균형을 이룬다.
추가 미세조정 없이 실제 로봇으로 전이되어 10회 실행에서 성공률 80%, 처리된 물체 92%를 달성했다.
CPU만으로의 실시간 로봇 추론은 느리지만(약 1.25초) GPU 없이도 여전히 작동한다.
일부 실제 환경의 실패는 물리 시뮬레이션의 마찰과 실제 마찰(예: 원통형 물체) 간 차이 때문인 경우가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.