QUICK REVIEW

[論文レビュー] Unity Perception: Generate Synthetic Data for Computer Vision

Steve Borkman, Adam Crespi|arXiv (Cornell University)|Jul 9, 2021

Advanced Neural Network Applications参考文献 35被引用数 71

ひとこと要約

本論文は、コンピュータビジョン課題の完全に注釈された合成データセットを生成するオープンソースパッケージ「Unity Perception」を紹介し、乱数化フレームワークと補助データセットツールを備え、実データと組み合わせた場合に合成データがモデル性能を向上させることを示している。

ABSTRACT

We introduce the Unity Perception package which aims to simplify and accelerate the process of generating synthetic datasets for computer vision tasks by offering an easy-to-use and highly customizable toolset. This open-source package extends the Unity Editor and engine components to generate perfectly annotated examples for several common computer vision tasks. Additionally, it offers an extensible Randomization framework that lets the user quickly construct and configure randomized simulation parameters in order to introduce variation into the generated datasets. We provide an overview of the provided tools and how they work, and demonstrate the value of the generated synthetic datasets by training a 2D object detection model. The model trained with mostly synthetic data outperforms the model trained using only real data.

研究の動機と目的

CVにおけるラベリングコスト、プライバシー、データの多様性の課題に対処するため、合成データの利用を動機づける。
一般的なCVタスク向けにUnity内でラベル付き合成データを生成する設定可能なツールチェーンを提示する。
ケーススタディ（SynthDet）を通じて合成データが実データモデルの性能に与える影響を示す。
インエディタ内のツールと、合成データセットを利用・分析するPythonの補助ツールを提供する。

提案手法

2D/3D物体検出、セマンティック/インスタンス分割、キーポイントのためのラベル付き合成データを生成するように Unity Editor/Engine を拡張する。
シナリオ、反復、ランダマイザー、サンプラーからなる拡張可能な乱数化フレームワークを導入し、シーンを決定論的に変化させる。
3Dシーン状態から注釈を導出するグラウンドトゥルースラベラーと、意味ラベルを標準IDに対応づけるマッピングを使用する。
センサ出力とラベラー出力を結ぶJSONベースのデータセットスキーマを提供し、解析を容易にする。
合成データでのモデル学習をサポートし、統計の解析と可視化を行うPythonパッケージ（DatasetInsights）を提供する。

実験結果

リサーチクエスチョン

RQ1Unity Perception で生成された合成データは、実データと比較してCVモデルの性能と同等か、それを上回ることができるか？
RQ2さまざまなデータ分割で、合成データと実データを組み合わせると、mAPやmARなどの物体検出指標にどのような影響があるか？
RQ3実世界のテストセットに対するモデルの一般化を高める上で、ドメインランダム化の役割は何か？

主な発見

主に合成データで学習したモデルは、実データだけで学習したモデルを上回ることがある。
SynthDet ケースでは、400k の合成画像と 760 の実画像を組み合わせた場合、テストした戦略の中で最も高い精度を示した（mAP 0.684、mAPIoU50 0.854、mAR100 0.757）。
実データが限られている場合、合成データは性能を大幅に向上させる（例：76 枚の実画像と合成データで強い改善が見られる）。
400k の合成データと実データを組み合わせると、複数の評価指標で実データのみより一貫して改善する。
本研究は、合成データがCV研究とデータセット生成ワークフローを加速する実現性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。