QUICK REVIEW

[論文レビュー] SynWoodScape: Synthetic Surround-view Fisheye Camera Dataset for Autonomous Driving

Ahmed Rida Sekkat, Yohan Dupuis|arXiv (Cornell University)|Mar 9, 2022

Advanced Vision and Imaging参考文献 26被引用数 58

ひとこと要約

本稿では、CARLAシミュレータ（v0.9.10.1）を用いて、実際のWoodScapeデータセットと正確に一致するキャリブレーションを実装した、自動運転向けに合成された80,000フレームの周辺視界魚眼カメラデータセット「SynWoodScape」を紹介する。10以上の周辺認識タスク（光流、深度、ビアズ・エイプ・ビュー（BEV）セグメンテーション、イベントカメラ信号など）に対する高密度かつ正確なアノテーションを提供し、高精細なベンチマーク評価を可能にするとともに、高価な実世界のアノテーションに依存する必要を軽減する。実験の結果、強力なベースライン性能が得られ、実データと合成データの間にはドメイン適応の必要性が明確に示された。

ABSTRACT

Surround-view cameras are a primary sensor for automated driving, used for near-field perception. It is one of the most commonly used sensors in commercial vehicles primarily used for parking visualization and automated parking. Four fisheye cameras with a 190{\deg} field of view cover the 360{\deg} around the vehicle. Due to its high radial distortion, the standard algorithms do not extend easily. Previously, we released the first public fisheye surround-view dataset named WoodScape. In this work, we release a synthetic version of the surround-view dataset, covering many of its weaknesses and extending it. Firstly, it is not possible to obtain ground truth for pixel-wise optical flow and depth. Secondly, WoodScape did not have all four cameras annotated simultaneously in order to sample diverse frames. However, this means that multi-camera algorithms cannot be designed to obtain a unified output in birds-eye space, which is enabled in the new dataset. We implemented surround-view fisheye geometric projections in CARLA Simulator matching WoodScape's configuration and created SynWoodScape. We release 80k images from the synthetic dataset with annotations for 10+ tasks. We also release the baseline code and supporting scripts.

研究の動機と目的

自動運転認識タスク向けに、大規模かつ完全にアノテートされた合成魚眼データセットが不足している問題に対処すること。
WoodScapeのような既存の実世界データセットに、光流、深度、同期されたマルチカメラ・ビアズ・エイプ・ビュー出力といった高密度アノテーションが欠落しているという制限を克服すること。
実世界のセンサー設定と正確に一致するコストフリーで正確なラベルが付与された合成データを用いて、認識モデルの高精細なベンチマーク評価を可能にすること。
実際のWoodScapeデータセットと同一のキャリブレーションと構成を持つ合成データセットを提供することで、ドメイン適応に関する研究を支援すること。
統合されたマルチカメラおよびBEV出力を利用した、自動パーキングや狭い空間での操舵といったニアフィールド認識アルゴリズムの開発を促進すること。

提案手法

CARLAシミュレータ（v0.9.10.1）を用いた合成データ生成。WoodScapeのカメラ構成、内在的・外在的キャリブレーションパrametersを正確に再現。
4次多項式マッピングモデル（r(θ) = a1θ + a2θ2 + a3θ3 + a4θ4）を用いた魚眼画像合成。3次元方向を単位球面に射影し、190°の視野角を持つ画像を生成。
同期的かつ時刻ロックされたマルチカメラ魚眼画像の生成に加え、セマンティック/インスタンス/モーションセグメンテーション、光流、深度、イベントカメラ信号、ビアズ・エイプ・ビュー（BEV）マップを含む10以上のタスクの正例データを生成。
逆ピアスプロジェクション（IPM）および直接シミュレーションを用いたビアズ・エイプ・ビュー表現の作成。段差やスピードバリアの3次元空間的コンテキストを保持する高さマップを含む。
OmniDetマルチタスクネットワークフレームワークを用いて、実データ（WoodScape）と合成データ（SynWoodScape）の間のドメインギャップを評価するパイプラインの実装。
実データおよび合成データの両方でベースラインを訓練・評価し、性能低下の程度とドメイン適応の必要性を定量化。

実験結果

リサーチクエスチョン

RQ1シミュレータを用いて、光流および深度の高密度かつ正確なアノテーションを備えた合成魚眼データセットを効果的に生成できるか？
RQ2合成データ上で得られた性能は、実世界の自動運転認識タスクにどの程度一般化可能か？
RQ3合成データのみで訓練するのと、実データと合成データを併用して訓練するのとを比較した場合、ドメイン一般化性能および実データ上での性能はどのように異なるか？
RQ4画像レベルの予測をIPMで変換するのと比較して、SynWoodScapeから直接得たトップビューのセマンティックセグメンテーションの性能向上はどの程度か？
RQ5同期されたマルチカメラおよびBEVアノテーションを備えた合成データは、自動パーキングなどのニアフィールド認識タスクのコストフリーな訓練を可能にするか？

主な発見

SynWoodScapeは、光流、深度、イベントカメラ信号を含む10以上の認識タスクに対して80,000フレームの高密度アノテーションを提供。これらは実世界では正確に収集することが困難なタスクである。
SynWoodScapeのみで訓練したモデルは、セマンティックセグメンテーションで78.2%のmIoU、モーションセグメンテーションで76.8%、オブジェクト検出で69.2%のmAPを達成し、強力なベースライン性能を示した。
実際のWoodScapeデータで評価したところ、合成データのみで訓練したモデルはセマンティックセグメンテーションで77.8%のmIoU、オブジェクト検出で68.5%のmAPを達成。ドメインギャップが存在するものの、妥当な一般化性能を示した。
実データと合成データの両方で訓練した場合、合成データのみでの訓練に比べて実データ上での性能が向上（セマンティックセグメンテーションで78.2%のmIoU）したが、実データのみでの訓練（76.6%のmIoU）には及ばず、ドメイン適応の必要性が顕著に示された。
SynWoodScapeから直接得たトップビューのセマンティックセグメンテーションは76.5%のmIoUを達成し、画像レベルの予測をIPMで変換する手法（61.2%のmIoU）を大きく上回った。これにより、ネイティブなトップビュー監視の価値が裏付けられた。
本データセットは、魚眼カメラ向けにイベントカメラ信号を公開する初のものであり、スパarsなイベントベース認識アルゴリズムの研究を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。