QUICK REVIEW

[논문 리뷰] SlowFast Networks for Video Recognition

Christoph Feichtenhofer, Haoqi Fan|arXiv (Cornell University)|2018. 12. 10.

Human Pose and Action Recognition참고 문헌 54인용 수 143

한 줄 요약

본 논문은 SlowFast를 소개한다. 비디오 인식을 위한 이중 경로 네트워크로, 시맨틱스를 위한 낮은 프레임 속도의 Slow 경로와 모션을 위한 경량의 높은 프레임 속도의 Fast 경로가 측면 연결(lateral connections)로 연결되며, optical flow 없이 Kinetics, Charades, AVA에서 최첨단 성능을 달성한다.

ABSTRACT

We present SlowFast networks for video recognition. Our model involves (i) a Slow pathway, operating at low frame rate, to capture spatial semantics, and (ii) a Fast pathway, operating at high frame rate, to capture motion at fine temporal resolution. The Fast pathway can be made very lightweight by reducing its channel capacity, yet can learn useful temporal information for video recognition. Our models achieve strong performance for both action classification and detection in video, and large improvements are pin-pointed as contributions by our SlowFast concept. We report state-of-the-art accuracy on major video recognition benchmarks, Kinetics, Charades and AVA. Code has been made available at: https://github.com/facebookresearch/SlowFast

연구 동기 및 목표

비디오 신호의 시공 간 비대칭을 동적으로 구분하여 공간적 의미와 모션을 두 개의 경로로 분리하고 활용한다.
다른 시간 속도와 채널 용량을 갖는 두 경로 아키텍처(Slow와 Fast)를 개발한다.
측면 연결을 통해 경로 표현을 융합하여 계산 효율성을 유지하면서 비디오 인식을 향상시킨다.
ImageNet 사전 학습 없이도 주요 벤치마크에서 최첨단 성능을 시연한다.
Fast 경로와 융합 메커니즘의 기여를 이해하기 위한 광범위한 고찰을 제공한다.

제안 방법

SlowPathway는 느린 프레임 속도(저 프레임 속도)로 넓은 공간 의미를, FastPathway는 높은 프레임 속도(경량화된)로 모션에 초점을 맞춘 SlowFast 아키텍처를 제안한다.
Slow 경로의 큰 시간 보폭 tau를 사용해 적은 프레임을 샘플하고 초기 층의 공간 해상도를 유지한다.
Fast 경로를 α배 더 높은 시간 분해능과 β 채널 용량으로 작동시켜 가볍게 유지하되 FLOPs의 약 20% 수준으로 유지한다.
두 경로를 여러 단계에서 측면 연결을 통해 융합하여 시간적 및 공간적 특징을 정렬한다.
명시적 오플틱 플로우를 사용하지 않고 원시 비디오 데이터에서 엔드-투-엔드로 학습하며, Kinetics, Charades, AVA에서 다수의 백본(예: ResNet 변형)과 ablation으로 평가한다.

실험 결과

연구 질문

RQ1다른 시간 속도를 가진 두 경로 아키텍처가 단일 경로 모델을 넘어 비디오 인식 성능을 향상시킬 수 있는가?
RQ2빨리 움직임에 집중하고 공간 세부 정보보다는 경량인 Fast 경로가 인식에 기여하는 바는 무엇인가?
RQ3Slow와 Fast 경로 간의 측면 연결 및 채널/시간 구성은 성능에 어떤 영향을 미치는가?
RQ4ImageNet 사전 학습이나 옵티컬 플로우 입력 없이도 최첨단 결과를 달성할 수 있는가?
RQ5SlowFast 모델은 AVA와 같은 행동 탐지 태스크에서 행동 분류 벤치마크에 비해 어떤 성능을 보이는가?

주요 결과

SlowFast 모델은 여러 백본과 입력 샘플링에서 Kinetics-400, Kinetics-600, Charades, AVA에 대해 최첨단 정확도를 달성한다.
Kinetics-400에서 SlowFast 16x8, ResNet-101 및 Non-local 블록은 30뷰당 234 GFLOPs로 top-1 79.8%, top-5 93.9%를 달성한다.
Charades에서 SlowFast 16x8, ResNet-101은 42.1 mAP를 달성하며, 베이스라인 Slow-만은 39.0, +NL은 Kin400 사전 학습으로 42.5, Kin600 사전 학습으로 45.2로 향상된다.
Slow 경로 단독은 강력하지만 SlowFast 융합은 ablation에서도 Slow-만을 넘어서는 성능을 지속적으로 보이며, top-1 정확도에서 최대 약 3.0pp의 개선을 달성한다.
동일한 백본으로 시작 학습 없이도 경쟁력 있는 결과를 달성할 수 있는데, 예를 들어 SlowFast 3D-ResNet-50을 처음부터 학습하면 73.5% top-1에 도달하는 반면, 이전 방식은 69.4%였다.
Fast 경로는 채널 용량이 작아도(FLOPs 증가가 매우 작더라도) 의미 있는 이득을 제공한다(예: 매우 작은 FLOPs 증가로 Top-1 +1.6%).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.