QUICK REVIEW

[논문 리뷰] End-to-End United Video Dehazing and Detection

Boyi Li, Xiulian Peng|arXiv (Cornell University)|2017. 09. 12.

Image Enhancement Techniques인용 수 24

한 줄 요약

이 논문은 시간적 일致성을 프레임 간에 활용하여 향상된 탈안개 처리를 위한 최초의 엔드 투 엔드 CNN 기반 비디오 탈안개 네트워크인 EVD-Net을 제안한다. 또한 비디오 탈안개와 객체 검출을 동시에 학습하는 통합 엔드 투 엔드 파이프라인인 EVDD-Net을 도입하여 기존 방법에 비해 훨씬 더 정확하고 시간적으로 안정된 검출 성능을 달성한다.

ABSTRACT

The recent development of CNN-based image dehazing has revealed the effectiveness of end-to-end modeling. However, extending the idea to end-to-end video dehazing has not been explored yet. In this paper, we propose an End-to-End Video Dehazing Network (EVD-Net), to exploit the temporal consistency between consecutive video frames. A thorough study has been conducted over a number of structure options, to identify the best temporal fusion strategy. Furthermore, we build an End-to-End United Video Dehazing and Detection Network(EVDD-Net), which concatenates and jointly trains EVD-Net with a video object detection model. The resulting augmented end-to-end pipeline has demonstrated much more stable and accurate detection results in hazy video.

연구 동기 및 목표

프레임 간 시간적 일관성을 활용하는 엔드 투 엔드 CNN 기반 비디오 탈안개 모델의 부족을 해결하기 위해.
공동 학습 프레임워크 내에서 탈안개를 사전 처리 단계로 통합하여 안개 낀 조건에서의 비디오 객체 검출 성능을 향상시키기 위해.
탈안개 품질과 시간적 일관성의 균형을 고려한 최적의 시간 융합 전략을 탐색하기 위해.
탈안개와 검출의 공동 학습이 분리 또는 계단식 학습보다 더 뛰어난 검출 안정성과 정확도를 제공하는지 입증하기 위해.
제안된 엔드 투 엔드 파이프라인의 훈련 및 평가를 가능하게 하기 위해 객체 검출 레이블이 부여된 합성 안개 낀 비디오 데이터셋을 구축하기 위해.

제안 방법

시간 모델링을 통한 수정된 AOD-Net 아키텍처를 사용하여 안개 낀 입력에서 직접 청소된 비디오 프레임을 회귀하는 완전한 엔드 투 엔드 비디오 탈안개 네트워크인 EVD-Net을 제안한다.
세 가지 시간 융합 전략—프레임 수준, 커널 수준, 출력 수준 융합—을 평가하여 커널 수준 융합(K-level)이 성능과 해석 가능성의 최적 균형을 이룬다는 것을 발견한다.
학습 가능한 K(x) 매개변수를 사용하여 물리 기반 탈안개 모델을 재구성하여 투과도와 대기 빛 추정을 하나의 미분 가능한 모듈로 통합한다.
EVD-Net을 Faster R-CNN 기반 객체 검출기와 연결하여 EVDD-Net을 구축함으로써, 백프로파게이션을 통한 두 구성 요소의 공동 학습이 가능하도록 한다.
이중 단계 훈련 전략을 사용한다: 먼저 고정된 탈안개 가중치로 검출 헤드를 미세 조정한 후, 전체 파이프라인을 공동으로 미세 조정한다.
추정된 깊이 맵을 사용한 대기 산산이 흩어지는 모델을 활용하여 안개 낀 비디오 데이터를 합성하여, 객체 검출 레이블이 부여된 현실적인 안개 낀 비디오 시퀀스에서의 훈련을 가능하게 한다.

실험 결과

연구 질문

RQ1시간 융합 전략 중 어느 것이(예: I-level, K-level, J-level) 탈안개 품질과 시간적 일관성을 가장 잘 유지하는가?
RQ2비디오 탈안개와 객체 검출의 엔드 투 엔드 공동 학습이 분리 또는 계단식 학습에 비해 안개 낀 비디오에서 검출 정확도와 시간적 안정성에 어떻게 기여하는가?
RQ3제안된 EVDD-Net의 성능은 안개 낀 비디오에서 최신의 단일 이미지 기반 탈안개 및 검출 모델들(예: JAOD-Faster R-CNN)에 비해 어떻게 비교되는가?
RQ4제안된 엔드 투 엔드 비디오 탈안개 파이프라인은 연속된 프레임 간 객체 검출에서 빛 번짐과 잡음 등의 문제를 어느 정도 감소시키는가?
RQ5객체 검출 레이블이 부여된 합성 안개 낀 비디오 데이터셋이 엔드 투 엔드 비디오 탈안개 및 검출 모델의 훈련 및 평가를 효과적으로 지원할 수 있는가?

주요 결과

모든 평가된 융합 전략 중에서 EVD-Net이 가장 시각적으로 매력적이고 세부 정보를 잘 유지하며 시간적으로 안정된 탈안개 결과를 달성하였으며, K-level 융합이 최적으로 확인되었다.
EVDD-Net은 합성 안개 낀 비디오 검출 데이터셋(TestSet V2)에서 모든 베이스라인, 특히 JAOD-Faster R-CNN에 비해 유의미하게 높은 평균 정밀도(MAP)를 달성하였다.
EVDD-Net은 가장 시간적으로 안정된 검출 결과를 생성하였으며, 실제 안개 낀 비디오에서 연속된 네 프레임 동안 네 대의 자동차—특히 거의 보이지 않는 오른쪽 끝 차량까지도 정확히 식별하였다.
EVD-Net과 검출 헤드의 공동 학습은 사전 훈련된 EVD-Net을 Faster R-CNN에 단순히 연결하는 것보다 더 나은 검출 성능을 제공함으로써, 엔드 투 엔드 최적화의 이점을 입증하였다.
이중 단계 훈련 전략(먼저 검출 헤드를 조정하고, 이후 전체 파이프라인을 공동으로 미세 조정)은 직접 엔드 투 엔드 학습에 비해 수렴 속도와 최종 성능을 크게 향상시켰다.
EVDD-Net은 안개 낀 데이터로 재학습한 Faster R-CNN보다 우수하며, 원본 Faster R-CNN를 초월하여 탈안개와 함께 공동 학습함으로써 검출의 강인성이 악화된 조건에서도 향상됨을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.