[論文レビュー] TSBOW: Traffic Surveillance Benchmark for Occluded Vehicles Under Various Weather Conditions
TSBOW は diverse weather における遮蔽車両の大規模 CCTV 交通監視ベンチマークで、320万フレーム超、8クラス、半自動注釈と YOLOv8/11/12 および RT-DETR のベースライン検出結果を含む。
Global warming has intensified the frequency and severity of extreme weather events, which degrade CCTV signal and video quality while disrupting traffic flow, thereby increasing traffic accident rates. Existing datasets, often limited to light haze, rain, and snow, fail to capture extreme weather conditions. To address this gap, this study introduces the Traffic Surveillance Benchmark for Occluded vehicles under various Weather conditions (TSBOW), a comprehensive dataset designed to enhance occluded vehicle detection across diverse annual weather scenarios. Comprising over 32 hours of real-world traffic data from densely populated urban areas, TSBOW includes more than 48,000 manually annotated and 3.2 million semi-labeled frames; bounding boxes spanning eight traffic participant classes from large vehicles to micromobility devices and pedestrians. We establish an object detection benchmark for TSBOW, highlighting challenges posed by occlusions and adverse weather. With its varied road types, scales, and viewpoints, TSBOW serves as a critical resource for advancing Intelligent Transportation Systems. Our findings underscore the potential of CCTV-based traffic monitoring, pave the way for new research and applications. The TSBOW dataset is publicly available at: https://github.com/SKKUAutoLab/TSBOW.
研究の動機と目的
- CCTV の交通監視における極端な気象条件と遮蔽下での頑健な車両検出を動機づける。
- 都市部の道路、交差点、災害条件を跨ぐ大規模でマルチシナリオなデータセットを提供する。
- 高品質の地上真実を作成し知能輸送システム研究を可能にする半自動注釈パイプラインを開発する。
- 遮蔽と悪天候下での性能を評価するベースライン検出の指標を確立する。
提案手法
- ROI 前処理、手動ラベリング、微調整済み YOLOv12x による自動ラベリング、検証、後処理を含む半自動反復注釈パイプラインを開発する。
- TSBOW を構成する:198 本のビデオ、320万フレーム、7110万境界ボックス、8 クラス(車、バス、トラック、小型トラック、ミクロモビリティ、歩行者、未識別、その他)。
- COCO で事前学習し TSBO W 上で1280 px 解像度に微調整した YOLOv8x、YOLOv11x、YOLOv12x、および RT-DETR-x を用いてベースラインを評価する。
- 気象、道路種別、スケール、遮蔽レベルを跨る検出性能を分析し、遮蔽物体検出の課題を理解する。
実験結果
リサーチクエスチョン
- RQ1CCTV ベースの交通映像における遮蔽と悪天候は物体検出性能にどのような影響を与えるか?
- RQ2多様で遮蔽が多く、気象が変化するデータセットで訓練した場合、現在のモデル(YOLOv8/11/12、RT-DETR)の検出能力と限界はどうなるか?
- RQ3TSBOW での訓練は都市部のボリューブリックや災害条件を含む跨ドメインの交通監視シナリオの頑健性を高めるか?
- RQ4スケール、道路種別、気象など、TSBOW 内で検出精度に影響を与えるクラス別・シナリオ別要因は何か?
主な発見
| Model | Precision | Recall | mAP50 | mAP50-95 |
|---|---|---|---|---|
| YOLOv8x | 0.783 | 0.705 | 0.733 | 0.609 |
| YOLO11x | 0.786 | 0.696 | 0.734 | 0.614 |
| YOLOv12x | 0.806 | 0.662 | 0.744 | 0.615 |
| RT-DETR-x | 0.731 | 0.740 | 0.718 | 0.552 |
- YOLOv12x は manually labeled テストセットで最高の全体精度と mAP 指標を達成(Precision 0.806、Recall 0.662、mAP50 0.744、mAP50-95 0.615)。
- RT-DETR-x は最高の Recall を示すが、精度と局在化指標は低い(Precision 0.731、Recall 0.740、mAP50 0.718、mAP50-95 0.552)。
- TSBOW で訓練したモデルは、UAVDT や UA-DETRAC で訓練したモデルよりもクロスデータセット比較で精度と Recall のバランスが良い(例:TSBOW の YOLOv12x は比較セットでより高い Recall および mAP50/mAP50-95 を報告)。
- TSBOW は 32.36 時間の映像、320万フレーム、198 本のビデオ、8 クラス、四季と varied road types を跨り、重度の遮蔽と気象多様性を含む。
- データセットには 7110 万境界ボックスが含まれ、クラス分布のバランスと substantial な遮蔽変動があり、交通監視における遮蔽物体検出の堅牢なベンチマークを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。