[논문 리뷰] Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks
이 설문조사는 이벤트 기반 비전을 위한 딥 러닝 방법의 포괄적 분류 체계를 제공하고, 재구성과 장면 이해 전반에 걸친 핵심 DL 접근법을 벤치마크하며, 도전과제와 향후 방향을 오픈소스 저장소와 함께 논의합니다.
Event cameras are bio-inspired sensors that capture the per-pixel intensity changes asynchronously and produce event streams encoding the time, pixel position, and polarity (sign) of the intensity changes. Event cameras possess a myriad of advantages over canonical frame-based cameras, such as high temporal resolution, high dynamic range, low latency, etc. Being capable of capturing information in challenging visual conditions, event cameras have the potential to overcome the limitations of frame-based cameras in the computer vision and robotics community. In very recent years, deep learning (DL) has been brought to this emerging field and inspired active research endeavors in mining its potential. However, there is still a lack of taxonomies in DL techniques for event-based vision. We first scrutinize the typical event representations with quality enhancement methods as they play a pivotal role as inputs to the DL models. We then provide a comprehensive survey of existing DL-based methods by structurally grouping them into two major categories: 1) image/video reconstruction and restoration; 2) event-based scene understanding and 3D vision. We conduct benchmark experiments for the existing methods in some representative research directions, i.e., image reconstruction, deblurring, and object recognition, to identify some critical insights and problems. Finally, we have discussions regarding the challenges and provide new perspectives for inspiring more research studies.
연구 동기 및 목표
- DL 입력에 대한 이벤트 표현과 품질 향상에 대한 포괄적 개요를 제공한다.
- DL 방법을 이미지 복원/복원과 장면 이해/3D 비전으로 분류한다.
- 대표적인 DL 방법을 벤치마크하여 성능 통찰과 격차를 식별한다.
- 향후 연구를 이끌기 위한 도전과제와 방향을 논의한다.
제안 방법
- 6가지 범주로 이벤트 표현을 분류하고(이미지 기반, 표면 기반, 학습 기반, 보셀 기반, 그래프 기반, 스파이크 기반) 이들의 작업 적합성을 분석한다.
- 노이즈가 많은 저해상도 이벤트 데이터에 대한 품질 향상 기술(노이즈 제거 및 초해상도)을 검토한다.
- DL 기반 이미지/비디오 복원 및 이벤트 가이드 SR/VSR 접근법을 조사하고 MSE, SSIM, LPIPS 및 레이턴시 지표에서 성능을 비교한다.
- 이벤트 기반 장면 이해 작업(분류, 탐지, 추적, 분할, 깊이)에 대한 DL 파이프라인을 요약한다.
- 오픈 소스 분류 체계를 제공하고 공개 저장소의 코드 링크로 이를 지속적으로 업데이트한다.
실험 결과
연구 질문
- RQ1이벤트 데이터는 DNN 친화적 입력으로 어떻게 표현되거나 변환될 수 있는가?
- RQ2이벤트로부터 학습하기 위해 최적화 기반 방법 대비 딥 러닝이 가져다주는 이점은 무엇인가?
- RQ3효과적인 이벤트 기반 비전을 위해 매우 깊은 신경망 모델링이 필요한가?
- RQ4DL 방법은 이벤트 카메라의 저지연, 고속 특성과 모델 복잡도 사이의 균형을 어떻게 달성할 수 있는가?
- RQ5합성곱 연산은 이벤트를 필터링하는 데 필수적인가, 아니면 대안 아키텍처가 더 적합할 수 있는가?
주요 결과
| 방법 | 유형 | MSE | SSIM | LPIPS | 소요 시간 |
|---|---|---|---|---|---|
| E2VID [90] | DL-based | 0.069 | 0.395 | 0.438 | 0.2448 s |
| ECNN [91] | D-based | 0.056 | 0.416 | 0.442 | 0.2839 s |
| BTEB [92] | DL-based | 0.090 | 0.357 | 0.520 | 0.4059 s |
| Tikhonov [89] | Model-based | 0.121 | 0.356 | 0.485 | 0.4401 s |
| TV [89] | Mode-based | 0.113 | 0.386 | 0.502 | 4.0443 s |
| CNN [89] | DL-based | 0.080 | 0.437 | 0.485 | 28.3904 s |
- DL 기반 이벤트 비전에 대한 이벤트 표현 및 품질 향상 방법의 포괄적 분류 체계를 제공한다.
- 이미지/비디오 복원 및 이벤트 가이드 SR/VSR를 위한 DL 기반 접근법을 요약하고 강점과 한계를 강조한다.
- 이벤트 데이터를 사용한 장면 이해 및 3D 비전에 대한 DL 기반 방법을 요약한다.
- 객체 인식, 재구성 등 벤치마크 실험이 실용적 통찰과 남아 있는 과제를 드러낸다.
- 연구를 지속하기 위한 분류 체계와 코드 링크를 갖춘 오픈 소스 저장소를 소개한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.