[論文レビュー] InteriorNet: Mega-scale Multi-sensor Photo-realistic Indoor Scenes Dataset
InteriorNet は 20M のフォトリアリスティック画像、1M の家具モデル、22M のレイアウト、SLAM とシーン理解のための RGB-D-IMU の ground truth、そしてレンダリングと軌道生成のツールを提供します。
Datasets have gained an enormous amount of popularity in the computer vision community, from training and evaluation of Deep Learning-based methods to benchmarking Simultaneous Localization and Mapping (SLAM). Without a doubt, synthetic imagery bears a vast potential due to scalability in terms of amounts of data obtainable without tedious manual ground truth annotations or measurements. Here, we present a dataset with the aim of providing a higher degree of photo-realism, larger scale, more variability as well as serving a wider range of purposes compared to existing datasets. Our dataset leverages the availability of millions of professional interior designs and millions of production-level furniture and object assets -- all coming with fine geometric details and high-resolution texture. We render high-resolution and high frame-rate video sequences following realistic trajectories while supporting various camera types as well as providing inertial measurements. Together with the release of the dataset, we will make executable program of our interactive simulator software as well as our renderer available at https://interiornetdataset.github.io. To showcase the usability and uniqueness of our dataset, we show benchmarking results of both sparse and dense SLAM algorithms.
研究の動機と目的
- 高忠実度でスケーラブルな屋内シーンの合成データセットを提供し、ロボティクスおよびコンピュータビジョンの SLAM、意味理解、地図作成を訓練・評価する。
- 現実世界のインテリアデザインと物体資産を活用して、フォトリアリズム、可変性、動的シーンにおけるグラウンドトゥルースの豊富さを実現する。
- カラーRGB-D、IMU、グラウンドトゥルース軌道をビデオフレームレートで生成するエンドツーエンドのツール(レン renderer とシミュレータ)を提供する。
- さまざまな照明、再配置、軌道スタイルの下で SLAM ベンチマークを通じてデータセットの有用性を示す。
提案手法
- Embree 上で構築されたエンドツーエンドのフォトリアリスティックレンダリングパイプライン(ExaRenderer)、CPU/GPU 対応でレイトレーシングベースのレンダリングを高速化。
- 現実世界の寸法と豊富な意味ラベリングを伴う大型家具モデルデータベース(≈1M CAD モデル);専門デザイナーによって作成された 22M のインテリアレイアウト。
- 物理エンジンを用いたシーンダイナミクスのシミュレーションにより、可動物の再配置と時間経過に伴う照明のバリエーションを実現。
- WaveNet ベースのモデルによる学習済み軌道スタイリングで現実的なカメラジッターを生成し、衝突を回避。
- ViSim インタラクティブシミュレータを用いて、任意のレイアウトでモノラル/ステレオ軌道と IMU/イベントグラウンドトゥルースを生成。
- ピクセル単位の NYU40 ラベル、3D バウンディングボックス、深度、インスタンスセグメンテーション、光学フローを含むグラウンドトゥルース生成。
実験結果
リサーチクエスチョン
- RQ1 megaスケールのフォトリアリスティック合成データがSLAMとシーン理解のベンチマークにどのような影響を与えるか?
- RQ2動く物体と可変照明を備えたダイナミックな屋内シーンは、静的な合成データと比べてSLAM手法の堅牢性を向上させるか?
- RQ3WaveNetスタイリングによる学習済みの現実的なカメラ軌道は、従来のランダムウォークと比べて評価に意味のある現実性を提供するか?
- RQ4大規模な屋内データセットにおけるレンダリング速度、画像解像度、グラウンドトゥルースの豊富さのトレードオフはどのようになるか?
主な発見
| 長さ (m) | (v, ω, 型) | ATE (m) | 説明 |
|---|---|---|---|
| 21.93 | (1,1,1) | 0.0428 | a sample model |
| 22.19 | (1,1,1) | 0.0352 | .. with different lighting |
| 21.84 | (1,1,1) | 0.0515 | .. with objects displaced |
| 13.88 | (9,9,1) | 0.1701 | 16 % tracked |
| 20.83 | (5,6,1) | 0.0454 | 39 % tracked |
| 17.46 | (1,5,1) | 0.0172 | type-1 |
| 22.67 | (1,1,2) | 0.0193 | type-2 |
| 4.79 | (1,1,3) | 0.3840 | type-3, 11 % tracked |
- データセットには約 20M の画像と 1.7M のレイアウトのグラウンドトゥルースデータが含まれており、大規模な学習と評価を可能にする。
- SLAM ベンチマーク(ORBSLAM2.0、ElasticFusion)は、軌道と照明/シーン変化シナリオによってパフォーマンスが変動し、データセットが堅牢性テストに有用であることを示している。
- サンプルシーケンス全体の平均絶対軌道誤差(ATE)は 0.0345 m、標準偏差は 0.02 mで、シーンとモデル間で測定可能なばらつきを示す。
- ExaRenderer は高忠実なパス追跡レンダリングを実現(720p-1080p 類似出力)、1 枚あたりのレンダリング時間は GPU クラスターで 2 ms、RGB-D、IMU、イベントカメラ出力をサポート。
- ViSim はモノラル/ステレオ軌道とグラウンドトゥルースデータを生成するアクセス可能なインターフェースを提供し、データセット作成と実験を容易にする。
- 実世界品質の家具モデル、大規模なレイアウト、および動的照明/配置の組み合わせにより、堅牢な SLAM ベンチマークに適した高フォトリアリズムのシーケンスが得られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。