[論文レビュー] InteriorNet: Mega-scale Multi-sensor Photo-realistic Indoor Scenes Dataset
InteriorNetは、RGB-D、IMU、および地上真理軌道を備えたメガスケールのフォトリアルな屋内シーンデータセットを、数百万のプロフェッショナルな家具モデルとレイアウトから構築し、SLAMベンチマーキング用の高速レンダラーとシミュレータを備えています。
Datasets have gained an enormous amount of popularity in the computer vision community, from training and evaluation of Deep Learning-based methods to benchmarking Simultaneous Localization and Mapping (SLAM). Without a doubt, synthetic imagery bears a vast potential due to scalability in terms of amounts of data obtainable without tedious manual ground truth annotations or measurements. Here, we present a dataset with the aim of providing a higher degree of photo-realism, larger scale, more variability as well as serving a wider range of purposes compared to existing datasets. Our dataset leverages the availability of millions of professional interior designs and millions of production-level furniture and object assets -- all coming with fine geometric details and high-resolution texture. We render high-resolution and high frame-rate video sequences following realistic trajectories while supporting various camera types as well as providing inertial measurements. Together with the release of the dataset, we will make executable program of our interactive simulator software as well as our renderer available at https://interiornetdataset.github.io. To showcase the usability and uniqueness of our dataset, we show benchmarking results of both sparse and dense SLAM algorithms.
研究の動機と目的
- SLAM、セマンティック理解、シーン理解手法のトレーニングとベンチマーキングを目的とした、スケールの大きい高いリアリズムを備えた合成屋内データセットを提供する。
- 多数の生産品質の家具モデルとレイアウトを活用し、多様で現実的な屋内環境を実現する。
- RGB-D、IMU、軌道、セマンティクス、フローを含むエンドツーエンドのレンダリングと地上真理生成を、時間変動を伴って提供する。
- 設定可能な照明、物体の再配置、運動軌跡のパイプラインと、ツール(ExaRendererとViSim)を導入する。
- SLAMベンチマーキングと定性的分析を通じてデータセットの有用性を示す。
提案手法
- 大規模な家具モデルデータベース(1,042,632 CADモデル)とNYU40意味付けにマッピングされた22,652,123の室内レイアウト。
- 複数のレンズモデルとモーションブラーに対応し、ビデオフレームレートでフォトリアリスティックなRGB-Dレンダリングが可能なエンドツーエンドのレンダリングパイプライン(ExaRenderer)。
- 日常生活を模倣するために、可動物体の再配置と照明の変化を行うために、物理エンジン(Project Chrono)を用いたシーンダイナミクスのシミュレーション。
- 実際の軌跡で訓練されたWaveNet様のモデルを用いたデータ駆動型軌道生成アプローチで、衝突回避を備えた現実的なカメラ運動を生成。
- モノキュラ/ステレオ軌道と対応する地上真理IMU、イベントデータの生成、SLAMベンチマーークへのエクスポートも可能な使いやすいシミュレーター(ViSim)。
実験結果
リサーチクエスチョン
- RQ1SLAMベンチマーキングに適したメガスケールのフォトリアリスティックで多様な屋内シーンをどう生成するか?
- RQ2堅牢な室内知覚システムの開発に有用で実現可能な地上真理モダリティ(RGB-D、IMU、セマンティクス、フロー)は何か?
- RQ3学習された軌道スタイルはSLAM評価とトレーニングを改善する現実的なカメラ運動を生み出せるか?
- RQ4シーンの変更(物体の再配置と照明の変化)は、合成だが現実的なデータにおけるSLAMの性能にどのように影響するか?
主な発見
- データセットには約20M枚のフォトリアリスティックな画像と約1.7Mレイアウトの地上真理が含まれ、巨大規模のトレーニングとベンチマーキングを可能にします。
- 照明変化と物体の再配置を伴う室内でのSLAM評価(ORBSLAM2.0とElasticFusion)は非自明な軌道誤差を示し、シーケンス全体の平均ATEは約0.0345 m、難易度は変動します。
- パストレーシングを用いた高速なGPU加速レンダラー(ExaRenderer)は、大規模GPUクラスタ上で1フレームあたり2 ms未満のレンダリングを達成し、地上真理のピクセルごとのラベル、深度、インスタンスセグメンテーション、光学フローを提供します。
- ViSimシミュレーターはモノキュラ/ステレオの軌道生成、地上真理IMU、イベントデータのエクスポートを提供し、柔軟なデータセット作成と再現性を促進します。
- 照明の変化とシーンの再配置がSLAMトラッキングと密集再構成性能に与える影響を示す興味深い定性的結果。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。