QUICK REVIEW

[論文レビュー] BDD100K: A Diverse Driving Video Database with Scalable Annotation Tooling.

Fisher Yu, Wenqi Xian|arXiv (Cornell University)|May 12, 2018

Advanced Neural Network Applications参考文献 34被引用数 753

ひとこと要約

本論文では、スケーラブルなアノテーションツールを活用して、物体のバウンディングボックス、走行可能領域、レーンマーク、インスタンスセグメンテーションを含む多様なアノテーションを備えた大規模なドライブ動画データセットBDD100Kを紹介する。このデータセットは、さまざまな地理的・気象的・環境的条件下で10万本の動画をカバーしており、スケールと多様性の面で先行するデータセットを大幅に超えて、強固な自動運転モデルのトレーニングを支援する。

ABSTRACT

Datasets drive vision progress and autonomous driving is a critical vision application, yet existing driving datasets are impoverished in terms of visual content. Driving imagery is becoming plentiful, but annotation is slow and expensive, as annotation tools have not kept pace with the flood of data. Our first contribution is the design and implementation of a scalable annotation system that can provide a comprehensive set of image labels for large-scale driving datasets. Our second contribution is a new driving dataset, facilitated by our tooling, which is an order of magnitude larger than previous efforts, and is comprised of over 100K videos with diverse kinds of annotations including image level tagging, object bounding boxes, drivable areas, lane markings, and full-frame instance segmentation. The dataset possesses geographic, environmental, and weather diversity, which is useful for training models so that they are less likely to be surprised by new conditions. The dataset can be requested at this http URL

研究の動機と目的

包括的なアノテーションを備えた多様で大規模なドライブ動画データセットの不足を解消すること。
手作業によるアノテーションの遅さと高コストというボトル neck を克服するため、スケーラブルなアノテーションツールを開発すること。
地理的・気象的・環境的変動を捉えたデータセットを構築し、モデルの汎化性能を向上させること。
豊富で多段階のアノテーションを提供することで、自動運転向けの強固なビジョンモデルのトレーニングを可能にすること。

提案手法

大規模な動画データセットを効率的に処理できるスケーラブルなアノテーションシステムの設計および実装。
さまざまな視覚的条件（場所、天候、時間帯の違いを含む）を有する10万本を超える動画の収集。
複数のアノテーションタイプの適用：画像レベルのタグ、物体のバウンディングボックス、走行可能領域のセグメンテーション、レーンマークのアノテーション、およびフルフレームのインスタンスセグメンテーション。
広範な動画コレクションにわたり一貫性とスケーラビリティを確保するため、アノテーションツールの活用。
モデルの耐障害性を高めるために、地理的および環境的多様性を体系的にキュレートすること。

実験結果

リサーチクエスチョン

RQ1スケーラブルなアノテーションシステムは、自動運転向けの大規模な動画データセットのラベル付けにかかる時間とコストを著しく削減できるか？
RQ2ドライブデータセットにおける地理的・気象的・環境的多様性は、ビジョンモデルの汎化性能にどのように影響するか？
RQ3より大規模で多様なデータセットは、物体検出、セグメンテーション、シーン理解タスクのパフォーマンスをどの程度向上させるか？
RQ4統合されたアノテーションパイプラインは、大規模な動画データセット全体で複数のアノテーションタイプを効率的にサポートできるか？

主な発見

BDD100Kデータセットは10万本を超える動画を含み、先行するドライブデータセットと比較して10倍のスケールに達している。
物体のバウンディングボックス、走行可能領域、レーンマーク、インスタンスセグメンテーションといった多様なアノテーションが含まれており、マルチタスク学習を可能にしている。
地理的・気象的・環境的多様性が体系的に捉えられており、特定の条件下でのモデルの過学習を低減している。
スケーラブルなアノテーションツールにより、全データセットにわたる効率的で一貫性のあるラベリングが実現され、大規模なデータキュレートを支援している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。