Skip to main content
QUICK REVIEW

[論文レビュー] Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point Clouds of Wild Scenes

Haiyan Wang, Xuejian Rong|arXiv (Cornell University)|Apr 26, 2020
3D Shape Modeling and Analysis被引用数 5
ひとこと要約

本論文は、野生のシーンのスケールの大きなポイントクラウドで学習するために、2Dの監視情報のみを用いた弱教師付き3次元セマンティックセグメンテーションフレームワークを提案する。グラフベースのピラミッド特徴ネットワークと可視性ネットワークを2D-3D連合最適化およびパースペクティブレンダリングを用いて統合することで、SUNCGおよびS3DISデータセットにおいて完全教師あり手法と同等の最先端の性能を達成した。

ABSTRACT

The deficiency of 3D segmentation labels is one of the main obstacles to effective point cloud segmentation, especially for scenes in the wild with varieties of different objects. To alleviate this issue, we propose a novel deep graph convolutional network-based framework for large-scale semantic scene segmentation in point clouds with sole 2D supervision. Different with numerous preceding multi-view supervised approaches focusing on single object point clouds, we argue that 2D supervision is capable of providing sufficient guidance information for training 3D semantic segmentation models of natural scene point clouds while not explicitly capturing their inherent structures, even with only single view per training sample. Specifically, a Graph-based Pyramid Feature Network (GPFN) is designed to implicitly infer both global and local features of point sets and an Observability Network (OBSNet) is introduced to further solve object occlusion problem caused by complicated spatial relations of objects in 3D scenes. During the projection process, perspective rendering and semantic fusion modules are proposed to provide refined 2D supervision signals for training along with a 2D-3D joint optimization strategy. Extensive experimental results demonstrate the effectiveness of our 2D supervised framework, which achieves comparable results with the state-of-the-art approaches trained with full 3D labels, for semantic point cloud segmentation on the popular SUNCG synthetic dataset and S3DIS real-world dataset.

研究の動機と目的

  • 複雑な現実世界のシーンにおける3次元セマンティックセグメンテーションのアノテーション不足に対処すること。
  • 3次元ラベルを一切使用せずに、2D画像レベルの監視情報のみを用いて効果的な3次元セマンティックセグメンテーションを実現すること。
  • 明示的な3次元監視なしに、3次元ポイントクラウドの構造を暗黙的にモデル化すること。
  • 3次元シーンにおけるオブジェクトの隠蔽や複雑な空間的関係の課題を軽減すること。
  • 自然シーンのポイントクラウドの大規模セマンティックセグメンテーションに適したスケーラブルなフレームワークの開発

提案手法

  • 3次元ポイントクラウドからの階層的グローバルおよびローカル特徴を抽出するために、グラフベースのピラミッド特徴ネットワーク(GPFN)を設計した。
  • 3次元シーンにおける可視性をモデル化し、オブジェクトの隠蔽に対処するため、可視性ネットワーク(OBSNet)を導入した。
  • パースペクティブレンダリングおよびセマンティック統合モジュールを用いて、3次元ポイントクラウドから精錬された2D監視信号を生成した。
  • トレーニング中に2D監視と3D予測を一致させるために、2D-3D連合最適化戦略を採用した。
  • 3次元バウンディングボックスやインスタンスレベルのラベルを必要とせず、単一視点の2Dアノテーションを用いて3次元セグメンテーションをガイドする。
  • ポイントクラウドのトポロジー上でのグラフ畳み込み演算を通じて、3次元幾何構造を暗黙的に捉える。

実験結果

リサーチクエスチョン

  • RQ12D監視情報のみで、複雑な現実世界のシーンにおける正確な3次元セマンティックセグメンテーションに十分な指針を提供できるか?
  • RQ2明示的な3次元アノテーションなしに、3次元ポイントクラウドの構造を効果的にモデル化できるか?
  • RQ32D監視情報と可視性モデルを用いることで、3次元シーンにおけるオブジェクトの隠蔽をどの程度軽減できるか?
  • RQ42D-3D連合最適化戦略は、純粋に2Dまたは3Dで監視された学習と比較して、セグメンテーション性能を向上させられるか?
  • RQ5本手法は、完全教師ありの最先端手法と比較して、正確性とスケーラビリティの面でどの程度の性能を示すか?

主な発見

  • 提案手法は、SUNCGの合成データセットにおいて、完全教師ありの最先端手法と同等の性能を達成した。
  • S3DISの現実世界データセットでは、3次元ラベルを一切使用しないにもかかわらず、完全教師ありSOTAアプローチと同等の性能を示した。
  • グラフベースのピラミッド特徴ネットワークは、グラフ畳み込み演算を通じて、3次元ポイントクラウドにおける局所的およびグローバルな文脈を効果的に捉えた。
  • 可視性ネットワークは、可視性と空間的関係をモデル化することで、隠蔽領域におけるセグメンテーション精度を顕著に向上させた。
  • 2D-3D連合最適化戦略により、特徴の整合性が向上し、多様なシーンレイアウトにわたる一般化性能が向上した。
  • 本フレームワークは、自然シーンの大型で複雑なポイントクラウドにおいて、強力なスケーラビリティと頑健性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。