[論文レビュー] D$^2$-City: A Large-Scale Dashcam Video Dataset of Diverse Traffic Scenarios
D2-Cityは中国からの10,000件を超えるdashcam動画を提供し、1,000本の動画に密な12クラスの物体検出と追跡アノテーションを、残りにはキーフレームアノテーションを付与しており、大規模な検出・追跡・補間タスクを可能にします。
Driving datasets accelerate the development of intelligent driving and related computer vision technologies, while substantial and detailed annotations serve as fuels and powers to boost the efficacy of such datasets to improve learning-based models. We propose D$^2$-City, a large-scale comprehensive collection of dashcam videos collected by vehicles on DiDi's platform. D$^2$-City contains more than 10000 video clips which deeply reflect the diversity and complexity of real-world traffic scenarios in China. We also provide bounding boxes and tracking annotations of 12 classes of objects in all frames of 1000 videos and detection annotations on keyframes for the remainder of the videos. Compared with existing datasets, D$^2$-City features data in varying weather, road, and traffic conditions and a huge amount of elaborate detection and tracking annotations. By bringing a diverse set of challenging cases to the community, we expect the D$^2$-City dataset will advance the perception and related areas of intelligent driving.
研究の動機と目的
- 現実世界の中国の交通シナリオを反映した、大規模で多様な dashcam 動画データセットを提供する。
- 1,000本の動画に対して12の道路オブジェクトクラスの密な境界ボックスと追跡アノテーションを提供する。
- 運転環境における物体検出、多物体追跡、および大規模検出補間のベンチマークを可能にする。
提案手法
- 中国5都市にわたりDiDiプラットフォームから11,211本を超えるdashcam動画を収集する。
- 1,000本の動画のすべてのフレームに対して12クラスの境界ボックスと追跡IDをアノテーションし、残りの動画にはキーフレーム検出を提供する。
- 品質と効率を両立するため、フレーム伝搬とmean-shift補間を用いたCVATベースのアノテーションプラットフォームを使用する。
- プライバシーのためにナンバープレートと顔をぼかし、タイムスタンプをぼかし、情報セキュリティとポリシー遵守を確保する。
- 1,000本の注釈付き動画を訓練(700)、検証(100)、テスト(200)セットに分割し、訓練/検証アノテーションを公開する。
実験結果
リサーチクエスチョン
- RQ1D2-Cityデータセットは、中国の多様な気象・道路・交通条件下で堅牢な検出と追跡をどのようにサポートしますか?
- RQ2データセット全体の物体数・バウンディングボックスの統計(カウント、オクルージョン、トランケーション)はどのようになっていますか?
- RQ3密なフレームごとのラベルに加えて多数のキーフレームアノテーションを提供することで、大規模検出補間を実現できますか?
- RQ4収集された動画全体の道路タイプ、交通モード、自車挙動の分布はどうなっていますか?
主な発見
- データセットは約100時間に達する11,211本の運転動画を含み、5つの中国都市で約500台の車両から収集されました。
- 1,000本の動画(70万以上のフレーム)に対して12クラスのオブジェクトを境界ボックスと追跡IDで密にアノテーション;残りの動画には補間タスク用のキーフレーム検出がある。
- 多様な道路タイプと条件を含み、都市部と郊外の映像、速度の変動、頻繁な交差点(平均0.26 intersections per 30s clip)。
- 平均シーン統計は1フレームあたり約5.37台の車と0.85人。オブジェクトの45.23%がオクルージョン、5.71%がトランケーション。
- 解像度(720pと1080p)ごとの境界ボックス分析は、全クラスの平均/中央値のオブジェクトサイズを提供。追跡アノテーションは動画あたりのオブジェクト数が多いことを示しており(例:動画あたり33.48台の車、8.46人)。
- データセットは三輪車(開放/密閉の三輪車)を強調しており、 applicable な場合にはライダーと車両を結びつける group_id メカニズムを含みます。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。