QUICK REVIEW

[논문 리뷰] Spatiotemporal Filtering for Event-Based Action Recognition

Rohan Ghosh, Anupam K. Gupta|arXiv (Cornell University)|2019. 03. 17.

Advanced Memory and Neural Computing참고 문헌 27인용 수 27

한 줄 요약

이 논문은 이벤트 기반 동작 인식을 위한 이중 단계의 시공간 필터링 프레임워크를 제안하며, 스파ike 이벤트에서 직접 운동 민감성 특징을 추출하기 위해 비지도 학습 기반의 느린 특징 분석(SFA)-유사 필터를 사용하여 DVS 제스처 데이터셋과 새로 촬영한 동작 데이터셋에서 기존 최고 성능(SOTA) 방법을 뛰어넘는 CNN 성능 향상을 크게 달성한다.

ABSTRACT

In this paper, we address the challenging problem of action recognition, using event-based cameras. To recognise most gestural actions, often higher temporal precision is required for sampling visual information. Actions are defined by motion, and therefore, when using event-based cameras it is often unnecessary to re-sample the entire scene. Neuromorphic, event-based cameras have presented an alternative to visual information acquisition by asynchronously time-encoding pixel intensity changes, through temporally precise spikes (10 micro-second resolution), making them well equipped for action recognition. However, other challenges exist, which are intrinsic to event-based imagers, such as higher signal-to-noise ratio, and a spatiotemporally sparse information. One option is to convert event-data into frames, but this could result in significant temporal precision loss. In this work we introduce spatiotemporal filtering in the spike-event domain, as an alternative way of channeling spatiotemporal information through to a convolutional neural network. The filters are local spatiotemporal weight matrices, learned from the spike-event data, in an unsupervised manner. We find that appropriate spatiotemporal filtering significantly improves CNN performance beyond state-of-the-art on the event-based DVS Gesture dataset. On our newly recorded action recognition dataset, our method shows significant improvement when compared with other, standard ways of generating the spatiotemporal filters.

연구 동기 및 목표

이벤트 기반 카메라에서의 동작 인식 과제를 해결하기 위해, 고해상도 시간 해상도를 제공하지만 흐린, 노이지하고 비동기적인 스파이크 이벤트 데이터를 다루는 데 목적이 있다.
시간 정밀도를 잃고 이벤트 데이터의 천연 시공간 구조를 활용하지 못하는 프레임 기반 변환 방법의 한계를 극복하는 데 목적이 있다.
스파이크 이벤트에서 직접 비지도 방식으로 의미 있는 운동 불변 시공간 특징을 학습하는 사전 처리 단계를 개발하는 데 목적이 있다.
노이즈와 관련 없는 변형을 줄이고 운동 관련 패턴을 유지함으로써, 후행되는 CNN 분류 성능을 향상시키는 데 목적이 있다.
기준 데이터셋(DVS 제스처)과 새로 확보한 동작 인식 데이터셋에서 방법을 검증하는 데 목적이 있다.

제안 방법

이 방법은 이중 단계 파이프라인을 사용한다: 첫 번째로, 스파이크 이벤트 제거에 대한 변화 최소화를 통한 SFA 유사 최적화를 통해 비지도 시공간 필터를 학습한다. 이는 이벤트 수 및 노이즈에 대한 불변성을 촉진한다.
필터는 이벤트 데이터의 국소적 3차원 가중치 행렬이며, 운동 패턴을 캡처하면서 정적 또는 중복되는 이벤트를 억제한다.
필터링 과정은 다대일 매핑으로 작용하여 이벤트 수를 줄이지만, 운동의 본질적인 시공간 구조를 유지한다.
필터 출력에 비선형 활성화(双곡탄젠트)를 적용하여 조명 및 에지 뚜렷함 변화에 대한 강건성을 향상시킨다.
필터링된 특징 맵은 이후 감독 학습 기반 3D CNN에 입력되어 추출된 특징에 대해 엔드 투 엔드 학습을 가능하게 한다.
필터 수는 정보 압축과 카테고리 관련 특징의 유지 간 균형을 맞추기 위해 조정되며, 정보 블로킹 원칙과 일치한다.

실험 결과

연구 질문

RQ1원시 이벤트 데이터에 대한 비지도 시공간 필터링이, 프레임 기반 또는 단순한 이벤트 박스화 방법에 비해 동작 인식 성능 향상에 기여하는가?
RQ2SFA 유사 필터링은 흐린, 비동기적인 이벤트 스트림에서 운동 불변 특징을 얼마나 효과적으로 추출하는가?
RQ3이중 단계의 비지도-지도 접근 방식이 이벤트 데이터에 대한 엔드 투 엔드 학습보다 동작 인식에서 더 우수한 성능을 내는가?
RQ4학습된 필터가 노이즈와 배경 변형을 억제하면서 운동 관련 정보를 어느 정도 유지하는가?
RQ5실세계 이벤트 데이터에서 조도 및 에지 뚜렷함 변화에 대해 필터와 결과 특징이 얼마나 강건한가?

주요 결과

제안된 시공간 필터링 방법은 DVS 제스처 데이터셋에서 최고 성능(SOTA)을 달성하여, 이벤트 기반 동작 인식 분야에서 기존 방법을 뛰어넘는다.
새로 촬영한 동작 인식 데이터셋에서, 표준 이벤트 박스화 및 기타 필터 생성 기법에 비해 분류 정확도가 크게 향상된다.
스파이크 이벤트 제거 불변성 최적화를 통해 학습된 필터는 스파이크 이벤트 수를 인코딩하지 않으며, 이는 이벤트 밀도 변화에 대한 강건성을 보여준다.
쌍곡탄젠트 비선형성의 사용은 밝기 및 에지 뚜렷함 변화에 대한 불변성을 향상시켜, 다양한 조명 조건에서의 일반화 능력을 향상시킨다.
이중 단계 아키텍처는 카테고리 관련이 아닌 정보를 효과적으로 줄이고 운동 특징을 유지하여 정보 블로킹 원칙과 일치한다.
강건하고 운동 민감성 특징 추출 기능 덕분에, 이 방법은 운동 세그멘테이션 및 시공간 특징 매칭과 같은 후속 작업에 잘 스케일링된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.