Skip to main content
QUICK REVIEW

[論文レビュー] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes

Angela Dai, Anne Lynn S. Chang|arXiv (Cornell University)|Feb 14, 2017
Robotics and Sensor-Based Localization参考文献 27被引用数 526
ひとこと要約

ScanNet は dense 3D reconstructions、カメラ姿勢、インスタンスレベルの意味付けを含む1513件のスキャンから成る大規模RGB-Dデータセットを導入し、3Dシーン理解タスクの教師あり学習と新しいベンチマークを可能にする。

ABSTRACT

A key requirement for leveraging supervised deep learning methods is the availability of large, labeled datasets. Unfortunately, in the context of RGB-D scene understanding, very little data is available -- current datasets cover a small range of scene views and have limited semantic annotations. To address this issue, we introduce ScanNet, an RGB-D video dataset containing 2.5M views in 1513 scenes annotated with 3D camera poses, surface reconstructions, and semantic segmentations. To collect this data, we designed an easy-to-use and scalable RGB-D capture system that includes automated surface reconstruction and crowdsourced semantic annotation. We show that using this data helps achieve state-of-the-art performance on several 3D scene understanding tasks, including 3D object classification, semantic voxel labeling, and CAD model retrieval. The dataset is freely available at http://www.scan-net.org.

研究の動機と目的

  • クラウドソースされた密なRGB-Dデータが3Dシーン理解研究をスケールアップできることを示す。
  • 非専門家による容易な取得、自動再構築、意味づけのためのワークフローとオープンフレームワークを提供する。
  • ScanNetが3D物体分類、意味的体素ラベリング、CADモデル検索で最先端性能を実現できることを示す。
  • 研究コミュニティに大規模なベンチマークとオープンソースツールを提供する。

提案手法

  • チェックボードパターンによる較正を用いた、商用ハードウェア(iPad上のStructure Sensor)を用いたスケーラブルなRGB-D取得システムを設計する。
  • BundleFusionベースの密な再構成を用いてカメラ姿勢を取得し、TSDFベースの高解像度メッシュを得る。
  • 再構成を自動的に共通座標系に整列させ、向きのある清浄なメッシュを抽出する。
  • WebGLのアノテーションインターフェースを介してインスタンスレベルの意味付けをクラウドソースし、支援付き検索/配置インターフェースを通じて3D CADモデルの整合を行う。
  • 3つのベンチマークタスク(3D物体分類、意味的体素ラベリング、CADモデル検索)を作成し、訓練/テスト分割と評価指標を提供する。
  • 密なRGB-D再構成の取得とアノテーションのオープンソースフレームワークを提供する。

実験結果

リサーチクエスチョン

  • RQ1初心者にも優しいRGB-D取得パイプラインは、現実世界の室内シーンのスケーラブルで豊富に注釈された3D再構成をサポートできるか。
  • RQ2ScanNetデータを活用することで、物体分類、ボクセルラベリング、CADモデル検索における深層学習ベースの3Dシーン理解タスクが改善されるか。

主な発見

  • ScanNetデータセットは707の異なる空間からの1513のRGB-Dスキャンを含み、250万のRGB-Dフレーム、カメラ姿勢、表面再構築、テクスチャ付きメッシュ、および密なインスタンスレベルの意味ラベルを含む。
  • クラウドソーシングのワークフローは表面にインスタンスレベルのカテゴリを注釈付けし、再構成へCADモデルを整合させ、スケーラブルな3D注釈を可能にする(52スキャンで681のCADモデルインスタンス、107の注釈)。
  • Semantic voxel labeling on ScanNet reaches 73.0% voxel-class accuracy on test scenes using geometry alone (no color).
  • 3D object classification benchmarks show improved transfer when training on ScanNet data (especially when combined with ShapeNet) versus synthetic data alone; mixing real ScanNet with ShapeNet improves performance.
  • 3D model retrieval shows that joint training on ShapeNet and ScanNet produces strong embedding performance for real-to-synthetic model retrieval.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。