[논문 리뷰] More Is Less: Learning Efficient Video Representations by Big-Little Network and Depthwise Temporal Aggregation
경량화되고 메모리 효율적인 비디오 아키텍처(bLVNet)를 도입하고 이중 경로의 Big-Little 설계와 소형 시계열 집계 모듈(TAM)을 통해 Heavy한 3D 컨볼루션 없이 시간적 관계를 모델링하며 Something-Something과 Moments-in-Time에서 SOTA를 달성하는 동시에 FLOPs와 메모리 사용을 감소시킴.
Current state-of-the-art models for video action recognition are mostly based on expensive 3D ConvNets. This results in a need for large GPU clusters to train and evaluate such architectures. To address this problem, we present a lightweight and memory-friendly architecture for action recognition that performs on par with or better than current architectures by using only a fraction of resources. The proposed architecture is based on a combination of a deep subnet operating on low-resolution frames with a compact subnet operating on high-resolution frames, allowing for high efficiency and accuracy at the same time. We demonstrate that our approach achieves a reduction by $3\sim4$ times in FLOPs and $\sim2$ times in memory usage compared to the baseline. This enables training deeper models with more input frames under the same computational budget. To further obviate the need for large-scale 3D convolutions, a temporal aggregation module is proposed to model temporal dependencies in a video at very small additional computational costs. Our models achieve strong performance on several action recognition benchmarks including Kinetics, Something-Something and Moments-in-time. The code and models are available at https://github.com/IBM/bLVNet-TAM.
연구 동기 및 목표
- 정확도를 희생하지 않으면서 비디오 동작 인식을 위한 계산 비용과 메모리 사용 footprint를 감소시킨다.
- 같은 하드웨어 예산에서 더 깊은 백본(backbone)과 더 많은 입력 프레임으로의 학습을 가능하게 한다.
- 짧은 기간과 긴 기간의 temporal 의존성을 효율적으로 포착하는 시간적 집계 메커니즘을 개발한다.
- 비싼 3D 컨볼루션에 의존하지 않고도 효과적인 시간적 모델링을 촉진한다.
제안 방법
- 제안하는 Big-Little Video Net (bLVNet): 저해상도 프레임을 처리하는 깊고 대용량 브랜치(Big-Net)와 고해상도 프레임을 처리하는 소형 브랜치(Little-Net)로 구성된 이중 경로 네트워크.
- 각 계층에서 두 가지 분기를 융합하여 다중 스케일 특징을 합치고 기준 TSN 변형보다 더 많은 프레임의 효율적인 처리를 가능하게 한다.
- Temporal Aggregation Module (TAM)를 도입: 채널별 가중 합성을 시간 창을 통해 수행하는 가볍고 학습 가능한 depthwise 1x1 컨볼루션 기반 모듈로 짧은- 및 긴 거리 의존성을 모델링한다.
- TAM 작동은 (i) 채널 가중치를 학습하는 1x1 depthwise 컨볼루션, (ii) 특징 맵의 시간적 시프트, (iii) ReLU 활성화로 시간 창 전체를 통한 집계를 포함한다.
- TAM은 공간 컨볼루션과 독립적으로 설계되었으며 파라미터와 계산량이 미미하게 추가되고 2D 또는 3D 백본과 통합될 수 있다.
실험 결과
연구 질문
- RQ1두 분기 Big-Little 네트워크가 3D CNN 기준선과 비교해 FLOPs 및 메모리를 줄이면서도 동작 인식 정확도를 비슷하거나 더 높게 달성할 수 있는가?
- RQ2경량화된 시간적 집계 모듈(TAM)이 듀얼-패스 비디오 네트워크의 로컬 융합을 넘어 시간적 모델링을 개선하는가?
- RQ3제안된 bLVNet-TAM 아키텍처에서 입력 프레임 수를 늘리는 것이 성능과 효율성에 어떤 영향을 미치는가?
- RQ4어려운 데이터셋(예: Something-Something)에서 TAM이 기존 Temporal-Shift 방법보다 시간 모델링에 더 효과적인가?
주요 결과
- bLVNet-TAM은 강력한 기준선 대비 현저히 낮은 FLOPs와 메모리로 강력한 성능을 달성하여 단일 컴퓨트 노드에서 더 깊은 백본과 더 많은 입력 프레임을 가능하게 한다.
- Temporal Aggregation Module (TAM)은 Temporal Shift Module (TSM) 대비 명확한 이득을 제공하고 로컬 융합을 보완하여 Something-Something 정확도를 향상시킨다.
- Something-Something에서 더 깊은 백본(bLResNet-101)과 많은 프레임을 가진 bLVNet-TAM이 RGB 만의 설정에서 새로운 최첨단 결과를 달성한다.
- Moments-in-Time에서 이 접근법은 top-1 정확도에서 싱글 스트림 및 앙상블 기준선을 능가한다.
- 벤치마크 전반에 걸쳐 입력 프레임이 늘어나면 일반적으로 bLVNet-TAM의 성능이 향상되지만, 메모리 사용은 TSN 기반 아키텍처에 비해 우호적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.