QUICK REVIEW

[논문 리뷰] Learnable pooling with Context Gating for video classification

Antoine Miech, Ivan Laptev|arXiv (Cornell University)|2017. 06. 21.

Human Pose and Action Recognition참고 문헌 48인용 수 242

한 줄 요약

이 논문은 Context Gating으로 특징과 출력을 재가중하고, 학습 가능하고 군집 기반 풀링 방식(NetVLAD, NetFV, BoW, NetRVLAD)을 활용한 확장 가능한 비디오 분류를 탐구하여 Youtube-8M V2에서 최첨단 결과를 달성한다.

ABSTRACT

Current methods for video analysis often extract frame-level features using pre-trained convolutional neural networks (CNNs). Such features are then aggregated over time e.g., by simple temporal averaging or more sophisticated recurrent neural networks such as long short-term memory (LSTM) or gated recurrent units (GRU). In this work we revise existing video representations and study alternative methods for temporal aggregation. We first explore clustering-based aggregation layers and propose a two-stream architecture aggregating audio and visual features. We then introduce a learnable non-linear unit, named Context Gating, aiming to model interdependencies among network activations. Our experimental results show the advantage of both improvements for the task of video classification. In particular, we evaluate our method on the large-scale multi-modal Youtube-8M v2 dataset and outperform all other methods in the Youtube 8M Large-Scale Video Understanding challenge.

연구 동기 및 목표

단순 평균화와 순환 신경망을 넘어 비디오 분류를 위한 더 나은 시간적 집계를 촉진한다.
활성화 간 상호 의존성을 모델링하고 특징 및 레이블의 중요도를 보정하기 위해 Context Gating을 제안한다.
LSTMs/GRUs의 대안으로 군집 기반의 미분 가능한 풀링(NetVLAD, NetFV, BoW, NetRVLAD)을 조사한다.
오디오와 비주얼 스트림의 결합이 다중 모달 비디오 이해를 향상시킨다는 것을 보여준다.
학습 가능한 풀링과 게이팅을 사용하여 Youtube-8M v2 데이터셋에서 최첨단 성능을 시현한다.

제안 방법

시각 및 오디오 특징용 이중 흐름 풀링 아키텍처를 도입한다.
Context Gating, a non-linear gating unit Y = sigma(WX + b) ∘ X인Context Gating을 제안한다.
풀링 이후와 분류기 이후에 Context Gating을 적용하여 출력 공간의 사전 정보를 포착한다.
NetVLAD, NetFV, NetRVLAD, 및 NetBoW를 시간적 집계용으로 차분 가능하고 학습 가능한 풀링 방법으로 적응시킨다.
동일한 1024차원 표현 하에서 LSTM/GRU 기준선 및 단순 평균 풀링과 비교한다.
최종 단계에서 Mixture-of-Experts (MoE) 분류기와 그 뒤의 Context Gating을 사용한다.

실험 결과

연구 질문

RQ1학습 가능한 군집 기반 풀링 스킴이 대규모 비디오 분류에서 순환 모델보다 더 우수할 수 있는가?
RQ2Context Gating이 다중 모달 비디오 작업에서 특징 수준 표현과 출력 공간의 사전 정보를 모두 향상시키는가?
RQ3오디오-비주얼 융합 전략이 Youtube-8M 데이터에 대해 다양한 풀링 방법과 어떻게 상호 작용하는가?
RQ4훈련 데이터 증가에 따른 이러한 풀링 방법의 일반화 특성은 어떠한가?
RQ5제안된 방법들이 대규모 비디오 이해 벤치마크에서 최첨단 성능을 달성할 수 있는가?

주요 결과

학습 가능한 풀링 방법들(BoW, NetVLAD, NetFV, NetRVLAD)이 Youtube-8M v2에서 GAP에서 평균 풀링 및 순환 모델을 능가한다.
Context Gating은 군집 기반 풀링 방법에 적용되었을 때 일관되게 성능을 향상시킨다.
Gated NetVLAD가 83.2% GAP를 달성하고, Gated NetRVLAD가 83.1% GAP를 검증 세트에서 달성한다(Table I 기준).
지연 연결을 통한 이중 스트림 오디오-비주얼 융합은 군집 기반 풀링의 성능을 향상시킨다.
128 클러스터의 NetVLAD에서 Context Gating이 0.8% GAP 이득을 제공한다(고찰).
다양한 모델의 앙상블이 최상위 성능을 낳으며, 25개 모델의 풀 앙상블이 그들의 설정에서 85.0% GAP를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.