[論文レビュー] One Thousand and One Hours: Self-driving Motion Prediction Dataset
本論文はこれまでで最大の自動運転モーション予測データセットを公開し、1,118 時間、170,000 シーンをカバーするほか、詳細なHDセマンティックマップと航空画像、L5Kitツールキットとモーション予測・計画のベースラインモデルを提供します。
Motivated by the impact of large-scale datasets on ML systems we present the largest self-driving dataset for motion prediction to date, containing over 1,000 hours of data. This was collected by a fleet of 20 autonomous vehicles along a fixed route in Palo Alto, California, over a four-month period. It consists of 170,000 scenes, where each scene is 25 seconds long and captures the perception output of the self-driving system, which encodes the precise positions and motions of nearby vehicles, cyclists, and pedestrians over time. On top of this, the dataset contains a high-definition semantic map with 15,242 labelled elements and a high-definition aerial view over the area. We show that using a dataset of this size dramatically improves performance for key self-driving problems. Combined with the provided software kit, this collection forms the largest and most detailed dataset to date for the development of self-driving machine learning tasks, such as motion forecasting, motion planning and simulation. The full dataset is available at http://level5.lyft.com/.
研究の動機と目的
- 大型データのモーション予測・計画への影響を強調する。
- リッチなセマンティックマップと画像を含む詳細なルート特異的データセットを提供し、下流MLタスクを可能にする。
- 研究とベンチマークを促進するオープンソースツール(L5Kit)とベースラインモデルを提供する。
提案手法
- 固定パロアルトのルート上で20台の車両から、170,000シーン(各25 s、10 Hz)を大規模データセットとして編成する。
- 15,242の注釈と8,505の車線セグメントを含む高精細セマンティックマップと74 km^2の航空マップを提供する。
- データアクセス、ビジュアライゼーション、ベースラインを含むPythonツ ToolkitであるL5Kitをリリースする。
- 履歴情報を用いたBEVラスタを用いたモーション予測のベースラインを establishingする。
- 傷害を緩和するために、収集後の積層誤差を軽減させるための摂動を伴う5秒のホライゾンの軌道を予測・実行するモデルを訓練して、計画のベースラインを示す。
実験結果
リサーチクエスチョン
- RQ1スケール(時間、シーン、参加者)が自動運転システムのモーション予測精度と計画性能に与える影響はどうなるか。
- RQ2詳細なHDセマンティックマップと航空文脈は将来のアクター挙動予測にどんな価値を提供するか。
- RQ3オープンなデータセットで閉ループシミュレーションを用いたオープンなMLベースの計画を効果的に評価できるか。
- RQ4このデータセットで訓練されたベースラインモデルは、予測ベースと計画ベースのベースラインと比較してどうか。
主な発見
| Statistic | Value |
|---|---|
| Self-driving vehicles used | 20 |
| Total dataset size (hours / km / scenes) | 1,118 / 26,344 / 162k |
| Training set size (hours / km / scenes) | 928 / 21,849 / 134k |
| Validation set size (hours / km / scenes) | 78 / 1,840 / 11k |
| Test set size (hours / km / scenes) | 112 / 2,656 / 16k |
| Scene length (seconds) | 25 |
| Total traffic observations | 3,187,838,149 |
| Average detections per frame | 79 |
| Labels (Car / Pedestrian / Cyclist) | 92.47% / 5.91% / 1.62% |
| Semantic map elements | 15,242 annotations / 8,505 lane segments |
| Aerial map area | 74 km^2 at 6 cm per pixel |
- データセットは1,118時間、26,344 km、20台の車両に渡る162kのシーンを構成する。
- HDセマンティックマップには15,242の注釈と8,505の車線セグメント、74 km^2の高解像度航空画像を含む。
- モーション予測のベースラインは、訓練データが増えるにつれて変位/誤差指標が改善され、履歴情報の恩恵を受ける。
- 計画のベースラインは、訓練データの増加と合成的摂動により閉ループ性能が改善され、積み重なる誤差に対処する。
- データセットとL5Kitは、これまで主に専有データで対処されてきたMLベースの計画の公開評価を可能にする。
- 予測と計画の性能はデータセット規模とともに非飽和に見え、数万から百万時間規模でさらなる向上が見込まれる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。