QUICK REVIEW

[논문 리뷰] Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

Shuyang Sun, Zhanghui Kuang|arXiv (Cornell University)|2017. 11. 29.

Human Pose and Action Recognition참고 문헌 45인용 수 28

한 줄 요약

이 논문은 깊이 학습된 특징 맵에서 공간-시간 기울기를 계산함으로써 RGB 입력만으로도 엔드 투 엔드 학습이 가능한 빠르고 강력한 동작 표현인 광학 흐름 유도 특징(Off)을 제안한다. 이 방법은 UCF-101에서 93.3%의 정확도를 달성하여 이중 스트림 네트워크 수준의 성능를 보이며, 200 FPS 이상으로 실행되며, 광학 흐름과 결합할 경우 UCF-101에서 96.0%, HMDB-51에서 74.2%의 최신 기준 성능을 달성한다.

ABSTRACT

Motion representation plays a vital role in human action recognition in videos. In this study, we introduce a novel compact motion representation for video action recognition, named Optical Flow guided Feature (OFF), which enables the network to distill temporal information through a fast and robust approach. The OFF is derived from the definition of optical flow and is orthogonal to the optical flow. The derivation also provides theoretical support for using the difference between two frames. By directly calculating pixel-wise spatiotemporal gradients of the deep feature maps, the OFF could be embedded in any existing CNN based video action recognition framework with only a slight additional cost. It enables the CNN to extract spatiotemporal information, especially the temporal information between frames simultaneously. This simple but powerful idea is validated by experimental results. The network with OFF fed only by RGB inputs achieves a competitive accuracy of 93.3% on UCF-101, which is comparable with the result obtained by two streams (RGB and optical flow), but is 15 times faster in speed. Experimental results also show that OFF is complementary to other motion modalities such as optical flow. When the proposed method is plugged into the state-of-the-art video action recognition framework, it has 96:0% and 74:2% accuracy on UCF-101 and HMDB-51 respectively. The code for this project is available at https://github.com/kevin-ssy/Optical-Flow-Guided-Feature.

연구 동기 및 목표

비디오 행동 인식을 위한 밀도 광학 흐름 추출의 비효율성과 높은 계산 비용을 해결하기 위해.
사전 계산된 광학 흐름에 의존하지 않고 시간적 동적 특성을 캡처하는 컴act하고 미분 가능한 운동 표현을 개발하기 위해.
이중 스트림 네트워크 수준의 성능를 달성하면서도 RGB 입력만으로도 CNN의 엔드 투 엔드 학습을 가능하게 하기 위해.
특징 수준의 운동 표현이 기존 광학 흐름보다 우월하거나 보완적인지 탐색하기 위해.
광학 흐름과 같은 다른 운동 모odalities와 결합했을 때 OFF의 효과성과 보완성을 검증하기 위해.

제안 방법

OFF는 깊이 학습된 특징 수준에서 광학 흐름의 직교 공간에서 유도되며, 깊이 학습된 CNN 특징 맵의 픽셀 단위 공간-시간 기울기를 사용한다.
이 방법은 수평 및 수직 공간 기울기와 연속된 특징 맵 간의 시간 차이를 계산하여 운동 인식 특징 표현을 형성한다.
OFF 내 모든 연산은 미분 가능하므로, 어떤 CNN 기반 비디오 행동 인식 아키텍처에 통합되어도 엔드 투 엔드 학습이 가능하다.
특징 맵 간의 시간 차이는 물체나 신체 부위가 나타나거나 사라지는 영역을 강조함으로써 운동의 동적 특성을 캡처한다.
OFF는 별도의 광학 흐름 추정 과정 없이 특징 맵에서 직접 계산되므로 추론 시간을 절감한다.
이 방법은 모듈식이며, 이중 스트림 네트워크나 TSN과 같은 기존 아키텍처에 쉽게 통합되어 최소한의 계산 오버헤드로 성능을 향상시킬 수 있다.

실험 결과

연구 질문

RQ1깊이 학습된 특징 기울기에서 유도된 운동 표현이 광학 흐름 수준의 성능를 달성하면서도 훨씬 더 빠르게 계산될 수 있는가?
RQ2깊이 학습된 특징 간의 시간 차이가 행동 인식에 있어 분류 가능한 의미 있는 운동 동적 특성을 캡처하는가?
RQ3OFF를 단독으로 사용하여 RGB 입력만으로도 이중 스트림 네트워크 수준의 정확도를 달성할 수 있는가?
RQ4OFF는 광학 흐름과 같은 다른 운동 모달리티와 보완적인가? 그리고 이들을 융합했을 때 성능 향상이 이루어지는가?
RQ5OFF 표현은 단일 CNN 내에서 엔드 투 엔드로 학습될 수 있는가? 이는 사전 계산된 운동 특징이 필요 없음을 의미한다.

주요 결과

OFF 기반 네트워크는 RGB 입력만으로 UCF-101에서 93.3%의 정확도를 달성하여 이중 스트림 네트워크 수준의 성능를 보이며, 15배 빠른 속도를 기록한다.
OFF가 통합된 네트워크는 200 프레임 이상의 초당 속도로 실행되어 RGB 입력만으로도 높은 추론 효율성을 입증한다.
이중 스트림 설정에서 광학 흐름과 결합했을 경우, UCF-101에서 96.0%의 정확도, HMDB-51에서 74.2%의 정확도를 달성하여 기준 이중 스트림 TSN보다 각각 2.0%, 5.7% 높은 성능를 기록한다.
제거 실험 결과, 성능 향상의 주요 원인은 네트워크 아키텍처가 아니라 OFF 계산임을 확인하였으며, OFF가 없는 초콜릿 기반 모델은 성능가显著히 열등하다.
앙상블에 OFF(RGB Diff)를 추가함으로써 정확도가 0.3% 향상되어 추가 모odal로써의 효과를 입증한다.
OFF 표현은 다른 운동 기술자와 보완적이며, 추가 전처리나 운동 특징 저장 없이도 최신 기준 모델의 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.