[論文レビュー] D-YOLO a robust framework for object detection in adverse weather conditions
D-YOLOは、 hazyとdehazedの特徴を共同で活用する堅牢な物体検出のために、明確な特徴抽出サブネットワーク、特徴適応、注意機能融合モジュールを備えたデュアルブランチアーキテクチャを導入し、RTTS、FoggyCityscapes、Foggy Drivingデータセットで最先端の結果を達成します。
Adverse weather conditions including haze, snow and rain lead to decline in image qualities, which often causes a decline in performance for deep-learning based detection networks. Most existing approaches attempts to rectify hazy images before performing object detection, which increases the complexity of the network and may result in the loss in latent information. To better integrate image restoration and object detection tasks, we designed a double-route network with an attention feature fusion module, taking both hazy and dehazed features into consideration. We also proposed a subnetwork to provide haze-free features to the detection network. Specifically, our D-YOLO improves the performance of the detection network by minimizing the distance between the clear feature extraction subnetwork and detection network. Experiments on RTTS and FoggyCityscapes datasets show that D-YOLO demonstrates better performance compared to the state-of-the-art methods. It is a robust detection framework for bridging the gap between low-level dehazing and high-level detection.
研究の動機と目的
- 霧化、霧、雨によって画像品質が低下し検出性能に影響を与える状況で、堅牢な物体検出を動機づける。
- 高レベルの特徴適応を低レベルの復元と統合して情報損失を回避する。
- デュアルブランチアーキテクチャと注意融合モジュールを提案し、 hazyとdehazedの特徴を活用する。
- 推論時には削除される明確特徴抽出を訓練時に有効化して効率化を図る。
- 現実データと合成 adverse-weatherデータセットの両方で有効性を示す。
提案手法
- Clear Feature Extraction (CFE)サブネットワークを提案し、透明な画像から霧のない特徴を抽出する。
- Omni-dimensional Dynamic Convolution (ODConv)を用いるFeature Adaption (FA)サブネットワークを導入し、霧のある入力からdehazed特徴を生成する。
- 場所意識型の注意機構を備えたAttention Feature Fusion (AFF)モジュールを組み込み、霧あり・霧なしの特徴を統合する。
- 訓練時にのみCFEを有効にしてデュアルブランチアーキテクチャを訓練、推論時のコスト低減を図る。
- 明確な特徴と霧あり特徴の間でKLダイバージェンスに基づく蒸留を行いドメインギャップを埋める;特徴マップ全体にスケール対応の重み付けを適用。
- RTTS、Foggy Driving、FoggyCityscapes、RainyCityscapesデータセットで、dehaze-then-detectベースラインや joint-restoration法と比較評価する。
実験結果
リサーチクエスチョン
- RQ1霧のある画像とクリア画像とのドメインギャップを、全画像復元よりも特徴レベルの適応アプローチでより効率良く橋渡しできるか。
- RQ2注意融合モジュールを備えたデュアルブランチアーキテクチャは、逆風下のcascade dehazing+detection法より優れているか。
- RQ3ODConvベースの特徴適応と注意融合が霧・雨下で検出精度に与える影響はどの程度か。
- RQ4訓練時の明確特徴抽出と動的損失重み付けが推論の効率性とロバスト性にどう影響するか。
- RQ5現実世界と合成 adverse-weatherデータセットの結果は移植可能か。
主な発見
| Method | Type | Train Dataset | Person | Bicycle | Car | Motor | Bus | All |
|---|---|---|---|---|---|---|---|---|
| Yolov8 | Baseline | VOC-f | 0.623 | 0.387 | 0.465 | 0.273 | 0.161 | 0.381 |
| Yolov8-C | Baseline | VOC-c | 0.619 | 0.364 | 0.157 | 0.241 | 0.155 | 0.367 |
| AOD-YOLOv8 | Dehaze&Detect | VOC-f, VOC-c | 0.598 | 0.358 | 0.407 | 0.233 | 0.130 | 0.345 |
| MSBDN-Yolov8 | Dehaze&Detect | VOC-f, VOC-c | 0.589 | 0.374 | 0.393 | 0.209 | 0.120 | 0.337 |
| Griddehaze-Yolov8 | Dehaze&Detect | VOC-f, VOC-c | 0.612 | 0.386 | 0.453 | 0.258 | 0.146 | 0.371 |
| D-YOLO | Union | VOC-f, VOC-c | 0.658 | 0.402 | 0.538 | 0.308 | 0.242 | 0.430 |
- D-YOLOはRTTSとFoggyCityscapesで、複数のオブジェクトクラスにおいて他の最新手法より高いmAPを達成。
- RTTSでは、OursはAll = 0.430、Car = 0.538、Person = 0.658、Bicycle = 0.402、Motor = 0.308、Bus = 0.242を達成(Table IIIの比較行)。
- Foggy Drivingでは、OursはAll = 0.335を示し、いくつかのベースラインを上回る(Table IV)。
- FoggyCityscapesでは、Oursはベースラインより優れた性能を示し、合成霧条件への強い一般化を示唆(Table V)。
- 推論の効率化:D-YOLOはRTTSで1フレームあたり30.3 FPS、画像1枚あたり0.033sを達成し、いくつかのdehaze+detect法より速度とパラメータ効率で優れる(Table VI)。
- アブレーション研究は、CFEとAFFが性能向上に重要であること、FAでのODConvが特徴移動を改善すること、KLダイバージェンスベースの損失(特に CWDLoss)が霧条件下での堅牢性を生むことを示す(Tables VIII–X)。
- RainyCityscapesの実験では、D-YOLOはベースラインYOLOv8系より雨下で検出性能が改善されることを示す(Table VII)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。