QUICK REVIEW

[論文レビュー] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes

Angela Dai, Anne Lynn S. Chang|arXiv (Cornell University)|Feb 14, 2017

Robotics and Sensor-Based Localization参考文献 27被引用数 526

ひとこと要約

ScanNet は dense 3D reconstructions、カメラ姿勢、インスタンスレベルの意味付けを含む1513件のスキャンから成る大規模RGB-Dデータセットを導入し、3Dシーン理解タスクの教師あり学習と新しいベンチマークを可能にする。

ABSTRACT

A key requirement for leveraging supervised deep learning methods is the availability of large, labeled datasets. Unfortunately, in the context of RGB-D scene understanding, very little data is available -- current datasets cover a small range of scene views and have limited semantic annotations. To address this issue, we introduce ScanNet, an RGB-D video dataset containing 2.5M views in 1513 scenes annotated with 3D camera poses, surface reconstructions, and semantic segmentations. To collect this data, we designed an easy-to-use and scalable RGB-D capture system that includes automated surface reconstruction and crowdsourced semantic annotation. We show that using this data helps achieve state-of-the-art performance on several 3D scene understanding tasks, including 3D object classification, semantic voxel labeling, and CAD model retrieval. The dataset is freely available at http://www.scan-net.org.

研究の動機と目的

クラウドソースされた密なRGB-Dデータが3Dシーン理解研究をスケールアップできることを示す。
非専門家による容易な取得、自動再構築、意味づけのためのワークフローとオープンフレームワークを提供する。
ScanNetが3D物体分類、意味的体素ラベリング、CADモデル検索で最先端性能を実現できることを示す。
研究コミュニティに大規模なベンチマークとオープンソースツールを提供する。

提案手法

チェックボードパターンによる較正を用いた、商用ハードウェア（iPad上のStructure Sensor）を用いたスケーラブルなRGB-D取得システムを設計する。
BundleFusionベースの密な再構成を用いてカメラ姿勢を取得し、TSDFベースの高解像度メッシュを得る。
再構成を自動的に共通座標系に整列させ、向きのある清浄なメッシュを抽出する。
WebGLのアノテーションインターフェースを介してインスタンスレベルの意味付けをクラウドソースし、支援付き検索/配置インターフェースを通じて3D CADモデルの整合を行う。
3つのベンチマークタスク（3D物体分類、意味的体素ラベリング、CADモデル検索）を作成し、訓練／テスト分割と評価指標を提供する。
密なRGB-D再構成の取得とアノテーションのオープンソースフレームワークを提供する。

実験結果

リサーチクエスチョン

RQ1初心者にも優しいRGB-D取得パイプラインは、現実世界の室内シーンのスケーラブルで豊富に注釈された3D再構成をサポートできるか。
RQ2ScanNetデータを活用することで、物体分類、ボクセルラベリング、CADモデル検索における深層学習ベースの3Dシーン理解タスクが改善されるか。

主な発見

ScanNetデータセットは707の異なる空間からの1513のRGB-Dスキャンを含み、250万のRGB-Dフレーム、カメラ姿勢、表面再構築、テクスチャ付きメッシュ、および密なインスタンスレベルの意味ラベルを含む。
クラウドソーシングのワークフローは表面にインスタンスレベルのカテゴリを注釈付けし、再構成へCADモデルを整合させ、スケーラブルな3D注釈を可能にする（52スキャンで681のCADモデルインスタンス、107の注釈）。
Semantic voxel labeling on ScanNet reaches 73.0% voxel-class accuracy on test scenes using geometry alone (no color).
3D object classification benchmarks show improved transfer when training on ScanNet data (especially when combined with ShapeNet) versus synthetic data alone; mixing real ScanNet with ShapeNet improves performance.
3D model retrieval shows that joint training on ShapeNet and ScanNet produces strong embedding performance for real-to-synthetic model retrieval.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。