QUICK REVIEW

[论文解读] SynWoodScape: Synthetic Surround-view Fisheye Camera Dataset for Autonomous Driving

Ahmed Rida Sekkat, Yohan Dupuis|arXiv (Cornell University)|Mar 9, 2022

Advanced Vision and Imaging参考文献 26被引用 58

一句话总结

本文提出 SynWoodScape，一个用于自动驾驶的合成 80k 帧全景鱼眼相机数据集，通过 CARLA 模拟器生成，并精确匹配真实 WoodScape 数据集的标定参数。该数据集为 10 多项感知任务（包括光流、深度、鸟瞰图分割和事件相机信号）提供密集且准确的标注，支持高保真度基准测试，减少对昂贵真实世界标注的依赖。实验表明基线模型性能优异，且真实数据与合成数据之间存在明显的域适应需求。

ABSTRACT

Surround-view cameras are a primary sensor for automated driving, used for near-field perception. It is one of the most commonly used sensors in commercial vehicles primarily used for parking visualization and automated parking. Four fisheye cameras with a 190{\deg} field of view cover the 360{\deg} around the vehicle. Due to its high radial distortion, the standard algorithms do not extend easily. Previously, we released the first public fisheye surround-view dataset named WoodScape. In this work, we release a synthetic version of the surround-view dataset, covering many of its weaknesses and extending it. Firstly, it is not possible to obtain ground truth for pixel-wise optical flow and depth. Secondly, WoodScape did not have all four cameras annotated simultaneously in order to sample diverse frames. However, this means that multi-camera algorithms cannot be designed to obtain a unified output in birds-eye space, which is enabled in the new dataset. We implemented surround-view fisheye geometric projections in CARLA Simulator matching WoodScape's configuration and created SynWoodScape. We release 80k images from the synthetic dataset with annotations for 10+ tasks. We also release the baseline code and supporting scripts.

研究动机与目标

为解决自动驾驶感知任务中缺乏大规模、完全标注的合成鱼眼数据集的问题。
克服现有真实世界数据集（如 WoodScape）在光流、深度以及同步多相机鸟瞰图输出方面缺乏密集标注的局限。
通过成本低廉、精确标注的合成数据，实现与真实世界传感器配置一致的高保真度感知模型基准测试。
通过提供与真实 WoodScape 数据集相同标定和配置的合成数据集，支持域适应研究。
通过统一的多相机和鸟瞰图输出，促进近场感知算法（如自动泊车和狭窄空间操作）的开发。

提出的方法

使用 CARLA 模拟器（v0.9.10.1）生成合成数据，精确复刻 WoodScape 的相机配置、内参和外参标定参数。
通过四阶多项式映射模型（r(θ) = a1θ + a2θ² + a3θ³ + a4θ⁴）实现鱼眼图像合成，将 3D 方向投影到单位球面，生成 190° 视场角图像。
生成同步、时间锁定的多相机鱼眼图像，以及对应 10 多项任务的真值，包括语义/实例/运动分割、光流、深度、事件相机信号和鸟瞰图（BEV）图。
通过逆透视映射（IPM）和直接模拟方法生成鸟瞰图表示，包括高程图以保留路缘和减速带等 3D 空间上下文信息。
实现一个域差距评估流水线，使用 OmniDet 多任务网络框架比较真实（WoodScape）与合成（SynWoodScape）数据。
在真实和合成数据上分别进行基线训练与评估，量化性能下降程度及域适应的必要性。

实验结果

研究问题

RQ1是否能够使用模拟器有效生成具有密集且准确标注的光流与深度信息的合成鱼眼数据集？
RQ2在合成数据上表现良好的模型，在真实世界自动驾驶感知任务中能多大程度上实现泛化？
RQ3与仅在合成数据上训练相比，联合使用真实与合成数据在域泛化能力和真实数据上的性能表现如何？
RQ4与基于 IPM 的图像级预测转换相比，使用直接标注的俯视图语义分割能带来多大的性能提升？
RQ5具有同步多相机和 BEV 标注的合成数据能否实现近场感知任务（如自动泊车）的零成本训练？

主要发现

SynWoodScape 提供 80,000 帧，涵盖 10 多项感知任务的密集标注，包括光流、深度和事件相机信号——这些任务在真实世界环境中难以准确获取。
仅在 SynWoodScape 上训练的模型在语义分割任务上达到 78.2% mIoU，运动分割为 76.8%，目标检测 mAP 为 69.2%，展现出强劲的基线性能。
在真实 WoodScape 数据上评估时，仅在合成数据上训练的模型在语义分割上达到 77.8% mIoU，目标检测 mAP 为 68.5%，表明尽管存在域差距，仍具备可接受的泛化能力。
联合使用真实与合成数据训练在真实数据上的性能（语义分割 mIoU 为 78.2%）优于仅使用合成数据训练，但仍不及仅使用真实数据训练（mIoU 76.6%），凸显了域适应的必要性。
使用 SynWoodScape 直接标注的俯视图语义分割达到 76.5% mIoU，显著优于基于 IPM 的图像级预测转换方法（61.2% mIoU），证明了原生俯视图监督的价值。
该数据集首次公开发布了鱼眼相机的事件相机信号，支持稀疏、事件驱动感知算法的研究。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。