QUICK REVIEW

[論文レビュー] End-to-End United Video Dehazing and Detection

Boyi Li, Xiulian Peng|arXiv (Cornell University)|Sep 12, 2017

Image Enhancement Techniques被引用数 24

ひとこと要約

本稿では、フレーム間の時間的整合性を活用して、より優れた除霧を実現する、初めてのエンドツーエンドCNNベースの動画除霧ネットワークEVD-Netを提案する。さらに、動画除霧と物体検出を統合的に学習する統一されたエンドツーエンドパイプラインであるEVDD-Netを導入し、従来手法に比べてはるかに正確で時間的に整合性のある検出を達成している。

ABSTRACT

The recent development of CNN-based image dehazing has revealed the effectiveness of end-to-end modeling. However, extending the idea to end-to-end video dehazing has not been explored yet. In this paper, we propose an End-to-End Video Dehazing Network (EVD-Net), to exploit the temporal consistency between consecutive video frames. A thorough study has been conducted over a number of structure options, to identify the best temporal fusion strategy. Furthermore, we build an End-to-End United Video Dehazing and Detection Network(EVDD-Net), which concatenates and jointly trains EVD-Net with a video object detection model. The resulting augmented end-to-end pipeline has demonstrated much more stable and accurate detection results in hazy video.

研究の動機と目的

フレーム間の時間的整合性を活用するエンドツーエンドCNNベースの動画除霧モデルが不足している問題に対処すること。
共同学習フレームワーク内での除霧を前処理ステップとして統合することで、曇りの強い状況下における動画物体検出性能を向上させること。
除霧品質と時間的整合性の両立を図る最適な時間的融合戦略を同定すること。
除霧と検出の共同学習が、カスケード型または別個の学習に比べて、より優れた検出の安定性と正確性をもたらすことを実証すること。
提案されたエンドツーエンドパイプラインの訓練と評価を可能にするために、物体検出アノテーションを付与した合成曇り動画データセットを構築すること。

提案手法

時間的モデリングを備えた、変更されたAOD-Netアーキテクチャを用いて、曇り入力からクリアな動画フレームを直接回帰する完全なエンドツーエンド動画除霧ネットワークEVD-Netを提案する。
3つの時間的融合戦略（フレームレベル、カーネルレベル、出力レベル融合）を評価し、カーネルレベル融合（Kレベル）が性能と解釈可能性の両面で最良のバランスを達成していることが判明した。
学習可能なK(x)パラメータを用いた再定式化された物理的除霧モデルを採用し、透過率と大気光推定を1つの微分可能モジュールに統合した。
EVD-NetとFaster R-CNNベースの物体検出器を連結することでEVDD-Netを構築し、バックプロパゲーションによる両コンponentの共同学習を可能にした。
2段階の訓練戦略を採用：まず、除霧重みを固定した状態で検出ヘッドを微調整し、その後、パイプライン全体を共同で微調整した。
推定された深度マップを用いた大気散乱モデルを用いて、物体検出ラベルを付与した現実的な曇り動画シーケンスのための合成曇り動画データを生成した。

実験結果

リサーチクエスチョン

RQ1どの時間的融合戦略（Iレベル、Kレベル、Jレベル）が、動画除霧において除霧品質と時間的整合性を最もよく保持するか？
RQ2エンドツーエンドの共同学習により、カスケード型または別個の学習に比べて、曇り動画における物体検出の正確性と時間的安定性が向上するか？
RQ3提案されたEVDD-Netは、曇り動画における最先端の単一画像除霧・検出モデル（例：JAOD-Faster R-CNN）と比較して、どの程度優れた性能を示すか？
RQ4提案されたエンドツーエンド動画除霧パイプラインは、連続フレーム間の物体検出におけるフレッカリングやアーチファクトをどの程度低減するか？
RQ5物体検出アノテーションを備えた合成曇り動画データセットは、エンドツーエンド動画除霧および検出モデルの訓練と評価を効果的に支援できるか？

主な発見

Kレベル融合が最適と特定されたEVD-Netは、すべての評価された融合戦略の中で、最も視覚的に魅力的で、詳細を保持し、時間的に整合性のある除霧結果を達成した。
EVDD-Netは、合成曇り動画検出データセット（TestSet V2）において、すべてのベースライン、特にJAOD-Faster R-CNNを上回る顕著な平均平均精度（MAP）を達成した。
EVDD-Netは、時間的に最も整合性のある検出結果を生み出し、実世界の曇り動画において4つの連続フレームで4台の車両（右端のほとんど見えない車両を含む）を正しく同定した。
EVD-Netと検出ヘッドの共同学習は、事前に訓練済みのEVD-NetをFaster R-CNNに単純に接続するのとは対照的に、より優れた検出性能をもたらし、エンドツーエンド最適化の利点を示した。
2段階の訓練戦略（まず検出ヘッドを微調整し、その後エンドツーエンドで微調整）は、直接エンドツーエンド訓練に比べて収束性と最終的性能が著しく向上した。
EVDD-Netは、曇りデータで微調整されたFaster R-CNNを上回り、元のFaster R-CNNをも上回った。これは、除霧と共同学習が劣化した条件下での検出のロバスト性を向上させることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。