QUICK REVIEW

[論文レビュー] Joint 2D-3D-Semantic Data for Indoor Scene Understanding

Iro Armeni, Sasha Sax|arXiv (Cornell University)|Feb 3, 2017

3D Surveying and Cultural Heritage参考文献 8被引用数 684

ひとこと要約

この論文は、互いに登録された 2D (RGB、深度、法線、360°画像) と 3D (メッシュ、点群) のモダリティを提供し、13 の物体クラスにわたるインスタンスレベルの意味アノテーションを備えた大規模で豊富に注釈された室内データセットを紹介する。これにより、室内シーン理解のためのモダル間および共同学習が可能になる。

ABSTRACT

We present a dataset of large-scale indoor spaces that provides a variety of mutually registered modalities from 2D, 2.5D and 3D domains, with instance-level semantic and geometric annotations. The dataset covers over 6,000m2 and contains over 70,000 RGB images, along with the corresponding depths, surface normals, semantic annotations, global XYZ images (all in forms of both regular and 360° equirectangular images) as well as camera information. It also includes registered raw and semantically annotated 3D meshes and point clouds. The dataset enables development of joint and cross-modal learning models and potentially unsupervised approaches utilizing the regularities present in large-scale indoor spaces. The dataset is available here: http://3Dsemantics.stanford.edu/

研究の動機と目的

大規模で多モダリティの室内データセットが、共同学習とクロスモーダル学習をサポートする必要性を動機づける。
2D RGB、深度、法線、360°の等距球像、3D メッシュ、点群を同期的に収集し、モダリティ間で一貫した意味アノテーションを提供する。
シーン理解、深度/法線推定、物体検出、セグメンテーション、アモーダル再構成などの下流タスクを可能にする。
データ収集・処理パイプラインとベースライン結果を提供し、クロスドメインおよび教師なし学習アプローチの開発を促進する。

提案手法

Matterport スキャンによる六つの大規模室内エリアを取得し、3D テクスチャ付きメッシュ、点群、RAW RGB-D データを得る。
3D 点群に 13 の物体クラスと 11 のシーンラベルをアノテーションし、メッシュと 2D 画像へアノテーションを投影する。
3D セマンティクスを画像領域へ投影して 2D セマンティック画像を生成し、3D セマンティックメッシュを提供する。
360° の等距球像を生成し、意味情報エントロピーに基づくサンプリング戦略を用いて追加の通常の RGB-D 画像をサンプリングする。
3D メッシュ（z-buffer）から深度画像をレンダリングし、メッシュから法線を計算して、16-bit 深度画像と 24-bit 法線画像として格納する。
3D 座標をエンコードした OpenEXR 画像と一貫した命名規則を提供し、データ収集・処理・サンプリングのワークフローを記述する。

実験結果

リサーチクエスチョン

RQ1互いに登録された 2D、2.5D、3D のモダリティをどのように組み合わせて室内シーン理解を高められるか。
RQ22D および 2.5D モダリティへ投影したときの 3D ベースのセマンティックアノテーションの利点は何か。
RQ3多様なモダリティを持つ大規模な室内データセットは、クロスモーダルおよび教師なし学習アプローチを支えるか。
RQ4この多モダリティデータを用いた 3D 物体検出のベースライン結果をどの程度確立できるか。
RQ5意味情報エントロピーに基づくサンプリング戦略は、アノテーションされた画像の多様性と有用性にどのように影響するか。

主な発見

データセットには 70,496 件の通常の RGB 画像と 1,413 件の等距球 RGB 画像が含まれ、深度、表面法線、意味アノテーション、グローバル XYZ 画像、カメラメタ情報が 6 エリアにわたって提供される。
695,878,620 個の 3D 点と 1,266,295 個の 3D メッシュ面が、13 の物体クラスと 11 のシーンラベルとともに提供され、クロスモーダル意味転送とアモーダル解析を可能にする。
3D セマンティクスが 2D セマンティック画像へ投影され、複数領域でのグラウンドトゥルースアノテーションを可能にし、3D 物体検出とシーン解析などのタスクを支援する。
サンプリングパイプラインは、等距球データからスキャン場所ごとに 72 枚の画像を生成し、カメラのヨー/ピッチ/FOV 分布とエントロピーベースのフィルタリングを用いて意味的に多様なコンテンツを保持する。
3D 点群での 3D 物体検出のベースライン結果が提供され、階層的パーシングと SVM/CRF ベースの手法を含み、クロスモーダルおよび階層的アプローチの評価にデータセットが有用であることを示す。
このデータセットは追加データの生成（3D メッシュと等距球投影を通じて）を可能にし、モダリティ間の監視付き学習と潜在的な教師なし学習の両方をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。