QUICK REVIEW

[論文レビュー] MG-Grasp: Metric-Scale Geometric 6-DoF Grasping Framework with Sparse RGB Observations

Kangxu Wang, Siang Chen|arXiv (Cornell University)|Mar 17, 2026

Robot Manipulation and Learning被引用数 0

ひとこと要約

MG-Grasp は深度なしの 6-DoF グ grasping フレームワークで、スパースな RGB ビューからメトリックスケールのマルチビュー整合ジオメトリを復元し、安定したグラフを直接生成します。GraspNet-1Billion で RGB ベースのベースラインを上回り、実世界のテーブルトップ環境でも機能します。

ABSTRACT

Single-view RGB-D grasp detection remains a common choice in 6-DoF robotic grasping systems, which typically requires a depth sensor. While RGB-only 6-DoF grasp methods has been studied recently, their inaccurate geometric representation is not directly suitable for physically reliable robotic manipulation, thereby hindering reliable grasp generation. To address these limitations, we propose MG-Grasp, a novel depth-free 6-DoF grasping framework that achieves high-quality object grasping. Leveraging two-view 3D foundation model with camera intrinsic/extrinsic, our method reconstructs metric-scale and multi-view consistent dense point clouds from sparse RGB images and generates stable 6-DoF grasp. Experiments on GraspNet-1Billion dataset and real world demonstrate that MG-Grasp achieves state-of-the-art (SOTA) grasp performance among RGB-based 6-DoF grasping methods.

研究の動機と目的

深度センサーなしで、スパースなマルチビュー RGB 入力を用いた深度なしの 6-DoF グリッピングを動機づける。
グローバルなメトリックフレームに対して、比例尺度付き予測をGroundingするメトリックスケール深度復元を開発する。
信頼性の高いグリップ生成のために、ジオメトリを refine する密なマルチビュー整合性を適用する。
メトリックスケール再構成をグリップ生成モジュールと統合し、統一パイプラインを構築する。
GraspNet-1Billion および実ロボット実験で RGB ベースの最先端グリッピング性能を実証する。

提案手法

二視点の深度を三角測量によりメトリック深度へ変換し、既知のカメラ姿勢とスケール合わせを行うメトリックスケール深度マップ生成器。
MASt3R を用いた深度集約と密な対応付けにより、初期のスケールを超える深度マップと対応を作成する。
視点間で深度を共通のメトリックフレームへ整合させる三角測量ベースのスケール復元。
3D 一致性を重視した 2 段階の信頼度加重型マルチビュー精緻化により、3D および 2D 投影の整合性を強化する。
マスク処理とフィルタリングを組み込んだ、マルチビュー整合性を持つグリップ指向点群を統合したシーンの融合。
LoG ベースのローカルグリップモデルが、精緻化された点群から領域レベルの 6-DoF グリップ候補をデコードする。

Figure 1: Pipeline of MG-Grasp: given sparse posed RGB images, we first perform Depth Aggregation and Dense Correspondence to obtain up-to-scale pointmaps, and then recover metric scale via Triangulation-based Scale Recovery. The metric pointmaps are further refined with multi-view consistency optim

実験結果

リサーチクエスチョン

RQ1深度センサーなしで、内部パラメータ/外部パラメータが既知のスパース RGB ビューからメトリックスケールジオメトリを復元できるか？
RQ2二視点の三角測量接地とマルチビュー Refinement が、信頼性の高い 6-DoF グリッピングに必要なメトリックスケールかつビュー間整合性のジオメトリを生み出すか？
RQ3RGB のみの MG-Grasp は GraspNet-1Billion および実世界テストで RGB-D や他の RGB-のみベースラインと比較してどうか？
RQ4入力ビュー数が再構成品質とグリッピング性能に及ぼす影響は？
RQ5Triangulation-based Scale Recovery と Multi-View Refinement は最終的なグリップ性能にどれだけ寄与するか？

主な発見

Method	Data	Seen	Similar	Novel	Average
Ours	RGB	63.70 / 66.80	56.03 / 57.35	23.22 / 20.47	47.65 / 48.21
GraspNeRF	RGB	22.49/24.61	14.15/17.67	11.08/12.86	15.91/18.38
VG-Grasp	RGB	59.23/54.65	36.34/35.13	10.84/11.85	35.47/33.88
FlexLoG	RGB-D	72.81/69.44	65.21/59.01	30.04/23.67	56.02/50.67

MG-Grasp は GraspNet-1Billion の Seen、Similar、Novel の各分割で RGB のみの最先端 6-DoF グリッピング性能を達成。
三角測量ベースのスケール復元により、スケールアップの深度をメトリック座標へ接地し、メトリック深度初期化を可能にする。
2 段階の信頼度加重型マルチビュー精緻化が、マルチビューの幾何学的一致性とグリップの信頼性を大幅に向上。
MG-Grasp は 4 つのスパース RGB ビューを用いた実世界のテーブルトップ実験で堅牢なグリッピングを示し、高い成功率と完了率を達成。
入力ビューを 2 から 4–6 に増やすと顕著な改善が得られ、約 5–6 ビューを超えると改善は飽和して品質と計算のバランスが取れる。
RGB ベースのベースラインと比較して、MG-Grasp は深度センサーを用いずに RGB-D 上限へ近づくギャップを縮小する。

Figure 2: Left: metrically scaled pointmaps before refinement; right: refined pointmaps. The highlighted regions (red boxes) illustrate misaligned surface layers before refinement, which are largely removed after refinement, resulting in multi-view consistent geometry for grasping.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。