QUICK REVIEW

[論文レビュー] SceneNet: Understanding Real World Indoor Scenes With Synthetic Data

Ankur Handa, Viorica Pătrăucean|arXiv (Cornell University)|Nov 22, 2015

Video Surveillance and Tracking Methods参考文献 3被引用数 97

ひとこと要約

本稿では、セマンティックピxls単位のセグメンテーションのための無制限の深度ベースの学習データを生成する合成3次元シーンデータセットであるSceneNetを提案する。ノイズモデルを用いて現実的な深度マップをレンダリングすることで、手動アノテーションなしにNYUv2およびSUN RGB-Dで準SOTA（SOTAに近い）の性能を達成した。これは、合成データが手動アノテーションを伴わず、現実世界のシーン理解を著しく向上させられることを示している。

ABSTRACT

Scene understanding is a prerequisite to many high level tasks for any automated intelligent machine operating in real world environments. Recent attempts with supervised learning have shown promise in this direction but also highlighted the need for enormous quantity of supervised data --- performance increases in proportion to the amount of data used. However, this quickly becomes prohibitive when considering the manual labour needed to collect such data. In this work, we focus our attention on depth based semantic per-pixel labelling as a scene understanding problem and show the potential of computer graphics to generate virtually unlimited labelled data from synthetic 3D scenes. By carefully synthesizing training data with appropriate noise models we show comparable performance to state-of-the-art RGBD systems on NYUv2 dataset despite using only depth data as input and set a benchmark on depth-based segmentation on SUN RGB-D dataset. Additionally, we offer a route to generating synthesized frame or video data, and understanding of different factors influencing performance gains.

研究の動機と目的

屋内シーン理解のための限られた手動アノテーション付き学習データという重要なボトル neck を解決すること。
NYUv2 や SUN RGB-D のような人手によるアノテーション付きデータセットの高コストとスケーラビリティの問題を克服すること。
3次元レンダリングされたシーンから得られる合成データが、深度ベースのセマンティックセグメンテーションにおいて、実世界のデータセットと同等またはそれ以上の性能を達成できるかどうかを検証すること。
深層ネットワークの学習に適したフレームレベルおよび動画レベルの合成データを生成するスケーラブルなパイプラインを確立すること。
データ量、ノイズモデリング、およびアーキテクチャ的要素（例：ドロップアウト）がセグメンテーション性能に与える影響を調査すること。

提案手法

アノテーション付きCADモデルと手続き的シーン生成を用いて大規模な合成3次元シーンデータセットを生成する。
物理的に妥当なレンダリングエンジンを用い、センサーノイズや欠損データなどの現実的なノイズモデルを備えた複数の視点から深度マップをレンダリングする。
RGBや法線情報ではなく、深度情報のみを入力として使用して、合成深度データ上で深層ニューラルネットワーク（Dense-Netベース）を学習する。
シミュレーションから現実へのギャップを埋めるために、ドメイン適応技術を用いて実世界データセット（NYUv2、SUN RGB-D）でモデルをファインチューニングする。
ドロップアウトなどのデータ拡張戦略を訓練中に適用し、モデルのロバスト性と一般化性能を評価する。
融合深度マップ（DHA）を入力として使用することで、センサーフュージョンによる時間的スムージングを模倣し、特徴表現を向上させる。

実験結果

リサーチクエスチョン

RQ1実世界のデータセットと比較して、合成深度データのみで競争力のある性能が達成可能か？
RQ2合成データの規模が、NYUv2 や SUN RGB-D などの実世界ベンチマークでの性能にどのように影響するか？
RQ3合成データに現実的なノイズモデルを組み込むことで、実センサーのデータへの一般化性能がどのように向上するか？
RQ4合成データで事前学習した後、実データでファインチューニングすることで、性能がどの程度向上するか？
RQ5ドロップアウトなどのアーキテクチャ的要素は、合成データと実データで学習する際の性能にどのように影響するか？

主な発見

SceneNet-FT-NYU-DHAは、NYUv2で66.5％のグローバル精度と51.7％のクラス精度を達成し、Eigenら（68.0％のグローバル精度）のRGB+深度手法に近い性能に到達した。
SUN RGB-Dでは、SceneNet-FT-SUNRGBD-DO-DHAが75.0％のグローバル精度と53.1％のクラス精度を達成し、SUNRGBD-DO-DHA（74.2％グローバル、52.2％クラス）をそれぞれ0.8％および0.9％上回った。
合成データによる性能向上は、機能的オブジェクトカテゴリ（例：床、壁、テーブル）で顕著で、床や壁のセグメンテーションで最大20％の改善が見られた。
深度の識別性が低いオブジェクト（例：本、テレビ、窓）は最小限の改善にとどまり、深度情報だけではこれらのクラスには不十分であることが確認された。
実データでのファインチューニングにより性能が著しく向上した：NYU-DO-DHAからSceneNet-FT-NYU-DO-DHAに移行することで、グローバル精度が2.2％、クラス精度が3.9％向上した。
訓練時にドロップアウトを追加してもわずかな向上しか得られず、合成生成によるデータの多様性が、この文脈では正則化よりもより重要な要因であることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。