QUICK REVIEW

[논문 리뷰] TAda! Temporally-Adaptive Convolutions for Video Understanding

Ziyuan Huang, Shiwei Zhang|arXiv (Cornell University)|2021. 10. 12.

Human Pose and Action Recognition참고 문헌 59인용 수 31

한 줄 요약

TAdaConv는 2D 합성곱에 시간적으로 적응하는 보정 가중치를 추가하여 프레임별 시간 모델링을 가능하게 하고, 효율적이며 사전 학습 모델과의 호환성을 유지합니다. 이를 통해 비디오 분류 및 로컬라이제이션 성능이 향상되며, ResNet/ConvNeXt 같은 기존 백본과 TAda2D TAdaConvNeXt에 플러그인으로 연결될 수 있어 여러 데이터셋에서 경쟁력 있거나 최첨단 결과를 달성합니다.

ABSTRACT

Spatial convolutions are widely used in numerous deep video models. It fundamentally assumes spatio-temporal invariance, i.e., using shared weights for every location in different frames. This work presents Temporally-Adaptive Convolutions (TAdaConv) for video understanding, which shows that adaptive weight calibration along the temporal dimension is an efficient way to facilitate modelling complex temporal dynamics in videos. Specifically, TAdaConv empowers the spatial convolutions with temporal modelling abilities by calibrating the convolution weights for each frame according to its local and global temporal context. Compared to previous temporal modelling operations, TAdaConv is more efficient as it operates over the convolution kernels instead of the features, whose dimension is an order of magnitude smaller than the spatial resolutions. Further, the kernel calibration brings an increased model capacity. We construct TAda2D and TAdaConvNeXt networks by replacing the 2D convolutions in ResNet and ConvNeXt with TAdaConv, which leads to at least on par or better performance compared to state-of-the-art approaches on multiple video action recognition and localization benchmarks. We also demonstrate that as a readily plug-in operation with negligible computation overhead, TAdaConv can effectively improve many existing video models with a convincing margin.

연구 동기 및 목표

동영상의 시간 역학을 더 잘 포착하기 위해 합성곱에서 시간적 불변성의 완화를 동기화합니다.
per-frame 커널을 W_t = alpha_t * W_b로 분해하고 alpha_t를 시간 컨텍스트에서 생성하는 TAdaConv를 도입합니다.
TAdaConv가 2D 합성곱의 플러그인 교체로 작동하고, 기존 비디오 모델에 최소한의 오버헤드로 성능 향상을 제공함을 입증합니다.
TAda2D 및 TAdaConvNeXt를 ACTION 분류 및 로컬라이제이션 벤치마크에서 강력한 결과를 보여줍니다.

제안 방법

프레임 t의 합성곱 가중치를 W_t = alpha_t * W_b로 인수분해합니다. 여기서 W_b는 공유 기반 가중치이고 alpha_t는 프레임 특이적 보정 벡터입니다.
알파 타를 프레임 설명자(전역 평균 풀링)와 로컬 시간 컨텍스트를 포함한 1D 컨볼루션 및 전역 설명자 g(FC를 통해)로부터 생성합니다. 선형 또는 비선형 가중치 생성 및 선택적으로 전역 컨텍스트를 포함할 수 있습니다.
alpha_t를 시작 시 1로 설정하여 표준 합성곱을 재현하도록 TAdaConv를 초기화해 사전 학습 가중치를 활용합니다.
백본의 2D 합성곱을 대체합니다(ResNet 기반 TAda2D; ConvNeXt 기반 TAdaConvNeXt) 및 TAdaConv 뒤에 2D 네트워크용 시간 특성 집계 모듈을 추가합니다.
효과성과 효율성을 위해 채널 차원(C_in)을 따라 보정합니다. 다양한 보정 차원에 대해 분석합니다.

실험 결과

연구 질문

RQ1비디오 작업에서 시간 모델링을 비둘기 같은 계산 부담 없이도 개선할 수 있도록 프레임별 보정이 가능한가요?
RQ2TAdaConv가 매개변수, FLOPs, 성능 측면에서 전통적인 시간 합성곱 및 다른 동적 필터와 비교하여 어떤 차이가 있나요?
RQ3기존 백본에 연결될 때 초기화, 보정 차원, 시간 컨텍스트 설정 중 어떤 조합이 TAdaConv의 이점을 극대화하나요?
RQ4TAdaConv가 사전 학습 가중치와의 호환성을 유지하고 서로 다른 아키텍처(ResNet, ConvNeXt) 및 작업(분류, 로컬라이제이션) 전반에 걸쳐 일관된 gains를 제공하나요?

주요 결과

TAdaConv를 기존 모델에 연결했을 때 계산 오버헤드가 2D/3D 합성곱의 기준선에 비해 무시할 만한 수준으로 성능이 향상됩니다.
TAdaConv가 여러 비디오 ACTION 인식 벤치마크에서 최첨단 접근법과 동등하거나 더 나은 결과를 달성합니다.
TAda2D 및 TAdaConvNeXt 변형은 Kinetics-400, Something-Something-V2, Epic-Kitchens-100 및 HACS, Epic-Kitchens-100 같은 액션 로컬라이제이션 데이터셋에서 강력한 결과를 보입니다.
로컬 시간 컨텍스트와 글로벌 시간 설명자를 포함하는 보정 가중치 생성은 더 큰 시간 커널(예: (3,3))에서 더 큰 이점을 제공합니다.
입력 채널 차원(C_in)에서의 보정이 다른 차원에서 보정하는 것보다 더 나은 성능 향상과 효율을 제공합니다.
여러 단계에 걸쳐 TAdaConv를 사용하는 경우 개선 효과가 증가하며, 후반 단계에서의 기여가 최종 정확도에 더 큰 영향을 미칩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.