Skip to main content
QUICK REVIEW

[論文レビュー] Volumetric Grasping Network: Real-time 6 DOF Grasp Detection in Clutter

Michel Breyer, Jen Jen Chung|arXiv (Cornell University)|Jan 4, 2021
Robot Manipulation and Learning参考文献 28被引用数 44
ひとこと要約

VGNはTSDF体積の各ボクセルに対して6-DOFの把持品質・姿勢・幅を予測し、明示的な衝突検査なしでリアルタイムの混雑したシーンでの把持を可能にする。合成データで訓練し、GPU加速推論を約10 msで実現して実機ロボットへ転移させる。

ABSTRACT

General robot grasping in clutter requires the ability to synthesize grasps that work for previously unseen objects and that are also robust to physical interactions, such as collisions with other objects in the scene. In this work, we design and train a network that predicts 6 DOF grasps from 3D scene information gathered from an on-board sensor such as a wrist-mounted depth camera. Our proposed Volumetric Grasping Network (VGN) accepts a Truncated Signed Distance Function (TSDF) representation of the scene and directly outputs the predicted grasp quality and the associated gripper orientation and opening width for each voxel in the queried 3D volume. We show that our approach can plan grasps in only 10 ms and is able to clear 92% of the objects in real-world clutter removal experiments without the need for explicit collision checking. The real-time capability opens up the possibility for closed-loop grasp planning, allowing robots to handle disturbances, recover from errors and provide increased robustness. Code is available at https://github.com/ethz-asl/vgn.

研究の動機と目的

  • 混雑したシーンにおけるリアルタイム6-DOF把持合成を動機づける。
  • 全3Dシーン情報を活用して、明示的な検査なしに衝突を暗黙的に処理する。
  • TSDF入力をボクセル毎の把持品質・姿勢・幅へマップするエンドツーエンドFCNを開発する。
  • 合成訓練から実ロボット環境へのファインチューニングなしの転移を実証する。

提案手法

  • シーンのTSDF表現を入力としてFully Convolutional Network (FCN)を使用する。
  • ボクセルごとに3つのヘッド出力を生成する:把持品質 q、姿勢 r(クォータニオンとして)、およびグリッパ幅 w。
  • 品質・回転・幅の項を組み合わせた損失を用いて合成混雑把持試行でエンドツーエンド訓練する。
  • 並列開閉グリッパーに対する対称性処理を取り入れ、回転損失で別のGround-truth姿勢を許容する。
  • 実行のためにトップ把持候補を抽出するために非極大抑制およびボクセルマスキングを適用する。

実験結果

リサーチクエスチョン

  • RQ1ボクセル単位のエンドツーエンドFCNは、混雑したシーンのTSDFから直接高品質な6-DOF把持を予測できるか。
  • RQ2完全な3Dシーン情報の使用は、部分観測に依存する方法と比べて衝突回避と把持成功率を改善するか。
  • RQ3VGNによるリアルタイム把持計画は実現可能か、シミュレーションのみで訓練したモデルはファインチューニングなしに実機へ転移できるか。

主な発見

  • VGNはリアルタイム計画を達成し、推論あたり約10 msのGPU実行を達成する。
  • シミュレーションの混雑環境実験で、VGNは成功率とクリアした物体数の両方でGPDを上回る。
  • 0.9–0.95の把持品質閾値で、VGNは高い成功率とより多くの物体をクリアするバランスを取る。
  • 追加のファインチューニングなしで実機へ転移し、10回実行で80%の成功と92%の物体クリアを達成する。
  • CPUのみの実機推論は遅い(約1.25 s)が、GPUなしでも機能的である。
  • 一部の実世界の失敗は、物理シミュレーションの摩擦と実際の摩擦(例:円柱状物体)の差異に起因する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。