QUICK REVIEW

[论文解读] BDD100K: A Diverse Driving Dataset for Heterogeneous Multitask Learning

Fisher Yu, Haofeng Chen|arXiv (Cornell University)|May 12, 2018

Advanced Neural Network Applications参考文献 36被引用 204

一句话总结

本文介绍了 BDD100K——一个大规模、多样化的驾驶视频数据集，包含 10 个异构任务及用于异构多任务学习的基准，并附有对领域偏移和训练策略的分析。

ABSTRACT

Datasets drive vision progress, yet existing driving datasets are impoverished in terms of visual content and supported tasks to study multitask learning for autonomous driving. Researchers are usually constrained to study a small set of problems on one dataset, while real-world computer vision applications require performing tasks of various complexities. We construct BDD100K, the largest driving video dataset with 100K videos and 10 tasks to evaluate the exciting progress of image recognition algorithms on autonomous driving. The dataset possesses geographic, environmental, and weather diversity, which is useful for training models that are less likely to be surprised by new conditions. Based on this diverse dataset, we build a benchmark for heterogeneous multitask learning and study how to solve the tasks together. Our experiments show that special training strategies are needed for existing models to perform such heterogeneous tasks. BDD100K opens the door for future studies in this important venue.

研究动机与目标

提供一个具有丰富多粒度注释的大规模、多样化的驾驶视频数据集。
支持一系列广泛的任务（像素级、区域级、时序）以实现异构多任务学习。
为驾驶场景中的同质、级联和异构多任务学习建立基准和基线。
研究任务多样性和数据域如何影响跨任务迁移与泛化。
研究提升跨任务性能的注释预算分配策略。

提出的方法

结合众包视频和 GPS/IMU 数据，从真实路线上收集并标注 100K 段驾驶视频（720p，30fps）。
提供包括图像标注、车道检测、可驾驶区域分割、路面对象检测、语义分割、实例分割、多目标跟踪（MOT）、带分割的 MOT（MOTS）、领域自适应和模仿学习在内的十个任务。
在同质、级联和异质多任务设置下评估基线方法，以揭示对多样化任务输出的训练需求。
通过比较同域内与跨域表现来分析领域偏移效应（例如 Cityscapes vs. BDD100K、白天 vs. 夜晚）。
探索任务级联（例如检测推动跟踪、检测推动分割）以理解跨任务收益和预算分配。

实验结果

研究问题

RQ1单一模型在具有不同输出结构的异构驾驶任务中的表现如何？
RQ2BDD100K 与其他驾驶数据集之间存在哪些领域偏移，它们如何影响检测和分割？
RQ3联合或级联多任务训练能否利用较便宜的注释提升昂贵任务的性能？
RQ4在异构多任务学习中，注释预算应如何分配以最大化跨任务的性能？
RQ5在一个统一框架中将跟踪与分割任务（MOT/MOTS）与检测和分割结合在一起的挑战与收益是什么？

主要发现

该数据集使异构多任务学习成为可能，并揭示异构任务组合需要特殊的训练策略。
数据集和条件之间存在显著的领域差异（如白天 vs. 夜晚；城市与非城市），影响对象检测性能。
联合训练和级联系统可以提高某些任务（例如实例分割从检测数据受益；MOTS 从上游检测/分割信号受益）。
增加多样但更简单的任务以支持更复杂的任务在注释预算有限时可以提高性能，尽管增益因任务和数据规模而异。
语义分割和对象检测在 Cityscapes 与 BDD100K 上训练时经历显著的领域偏移，暗示新数据集的互补价值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。