QUICK REVIEW

[論文レビュー] The Best of Both Modes: Separately Leveraging RGB and Depth for Unseen Object Instance Segmentation

Christopher Xie, Xiang Yu|arXiv (Cornell University)|Jul 30, 2019

Advanced Neural Network Applications参考文献 38被引用数 31

ひとこと要約

本論文は、未観測のオブジェクトインスタンスセグメンテーションのための2段階フレームワークを提案する。このフレームワークは、合成RGBおよび深度データを別々に活用し、深度のみのマスクを粗いシードとして用い、その後RGBで精緻化することで、ドメイン適応を一切行わずに実世界データセットで最先端の性能を達成している。驚くべきことに、非フォトリッチなRGBで学習したにもかかわらず、OCIDおよびOSDベンチマークでMask R-CNNを上回る性能を発揮している。

ABSTRACT

In order to function in unstructured environments, robots need the ability to recognize unseen novel objects. We take a step in this direction by tackling the problem of segmenting unseen object instances in tabletop environments. However, the type of large-scale real-world dataset required for this task typically does not exist for most robotic settings, which motivates the use of synthetic data. We propose a novel method that separately leverages synthetic RGB and synthetic depth for unseen object instance segmentation. Our method is comprised of two stages where the first stage operates only on depth to produce rough initial masks, and the second stage refines these masks with RGB. Surprisingly, our framework is able to learn from synthetic RGB-D data where the RGB is non-photorealistic. To train our method, we introduce a large-scale synthetic dataset of random objects on tabletops. We show that our method, trained on this dataset, can produce sharp and accurate masks, outperforming state-of-the-art methods on unseen object instance segmentation. We also show that our method can segment unseen objects for robot grasping. Code, models and video can be found at https://rse-lab.cs.washington.edu/projects/unseen-object-instance-segmentation/.

研究の動機と目的

大規模な実世界データセットが入手できない未構造的なテーブルトップ環境における未観測オブジェクトインスタンスのセグメンテーションの課題に対処すること。
特にRGBがフォトリッチでない場合に、合成データと実世界のRGB-Dセンサ間のドメインギャップを克服すること。
深度を用いて堅牢な初期マスクを生成し、RGBを用いて細分化されたフィンガープリントを精緻化することで、セグメンテーションの正確性と鋭さを向上させること。
ロボットビジョンタスク（例：ごちゃついたシーンにおける未知のオブジェクトの把持）における有効なシミュレーションから実世界への転送を可能にすること。
非フォトリッチな合成RGBで学習した場合でも、エンドツーエンドのRGBベースの学習よりもマスク精緻化がドメインシフトに対してより頑健であることを示すこと。

提案手法

2段階フレームワーク：まず、深度シーディングネットワーク（DSN）が合成深度画像のみを用いて粗いインスタンスマスクを生成する。
次に、領域精緻化ネットワーク（RRN）がDSNが生成した各マスクと対応するRGB画像を入力として、セグメンテーション境界を精緻化する。
RRNは非フォトリッチな合成RGBでのみ学習され、ドメインランダマイゼーションや適応技術は一切使用しない。
DSNは合成深度データで学習され、実世界の深度ノイズやオクルージョンに一般化できるようにする。
DSNでは2次元のセンター投票機構を用いてオブジェクトの中心を予測し、初期マスクを生成する。
全システムは、物理的シミュレーションと非フォトリッチレンダリングを用いてシミュレートされた、ランダムなShapeNetオブジェクトの大量合成データセット上で学習される。

実験結果

リサーチクエスチョン

RQ1深度とRGBを別々に処理する2段階手法が、統合されたRGB-D処理よりも未観測オブジェクトへの一般化性を向上させられるか？
RQ2非フォトリッチな合成RGBで学習した精緻化ネットワークが、ドメイン適応を一切行わずに実世界のRGBに一般化できるか？
RQ3初期マスク生成に深度のみを用いることで、実世界のセンサノイズやオクルージョンに対する耐性が向上するか？
RQ4提案手法が、Mask R-CNNなどの最先端モデルを未観測オブジェクトインスタンスセグメンテーションベンチマークで上回れるか？
RQ5RGBと深度の処理を分離することで、シミュレーションから実世界への転送におけるドメインシフト問題がどの程度軽減されるか？

主な発見

提案手法は、未観測オブジェクトインスタンスセグメンテーションのベンチマークであるOCIDおよびOSDの両方で、最先端の手法、特にMask R-CNNを上回った。
領域精緻化ネットワーク（RRN）は、非フォトリッチな合成RGBでのみ学習されたにもかかわらず、実RGBデータで学習されたモデルと同等の性能を達成した。
実世界のごちゃついたシーンにおいても、最小限の過剰セグメンテーションや不十分セグメンテーションを伴い、鋭く正確なマスクを生成した。
DSNは深度センサのノイズに強く、耐性のある堅牢な初期マスクを生成した一方、RRNはRGBのテクスチャを活用して境界の不正確さを効果的に是正した。
ロボットの把持実験では、3回の試行すべてでオブジェクトを正しくセグメンテーションし、1回あたり1〜2回の余分な把持試行で成功したが、セグメンテーションエラーによる失敗ケースもあった。
失敗事例の主な原因はDSNの誤検出（偽陽性）や、色が似通ったオブジェクトをRRNが融合させたことであったが、これはコアフレームワークの制限によるものではなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。