QUICK REVIEW

[논문 리뷰] CT-Net: Channel Tensorization Network for Video Classification

Kunchang Li, Xianhang Li|arXiv (Cornell University)|2021. 06. 03.

Human Pose and Action Recognition참고 문헌 25인용 수 26

한 줄 요약

CT-Net은 채널 텐서화 모듈(Channel Tensorization Module)을 도입하여 채널 차원을 텐서화하고 텐서 분리 합성(curve) 컨볼루션과 텐서 활성화 메커니즘을 사용해 효율성과 특징 상호 작용의 균형을 맞추며 Kinetics-400 및 Something-Something v1/v2에서 낮은 계산으로 우수한 정확도를 달성합니다.

ABSTRACT

3D convolution is powerful for video classification but often computationally expensive, recent studies mainly focus on decomposing it on spatial-temporal and/or channel dimensions. Unfortunately, most approaches fail to achieve a preferable balance between convolutional efficiency and feature-interaction sufficiency. For this reason, we propose a concise and novel Channel Tensorization Network (CT-Net), by treating the channel dimension of input feature as a multiplication of K sub-dimensions. On one hand, it naturally factorizes convolution in a multiple dimension way, leading to a light computation burden. On the other hand, it can effectively enhance feature interaction from different channels, and progressively enlarge the 3D receptive field of such interaction to boost classification accuracy. Furthermore, we equip our CT-Module with a Tensor Excitation (TE) mechanism. It can learn to exploit spatial, temporal and channel attention in a high-dimensional manner, to improve the cooperative power of all the feature dimensions in our CT-Module. Finally, we flexibly adapt ResNet as our CT-Net. Extensive experiments are conducted on several challenging video benchmarks, e.g., Kinetics-400, Something-Something V1 and V2. Our CT-Net outperforms a number of recent SOTA approaches, in terms of accuracy and/or efficiency. The codes and models will be available on https://github.com/Andy1621/CT-Net.

연구 동기 및 목표

비디오 분류를 위한 풍부한 시공간-채널 상호작용을 보존하면서 3D 컨볼루션의 복잡성을 감소시키려는 동기 부여.
채널을 K개의 부분 차원으로 분해하여 효율적이고 다차원 컨볼루션을 가능하게 하는 Channel Tensorization Module (CT-Module) 제안.
텐서 인식 방식으로 공간, 시간 및 채널 주의를 학습하는 Tensor Excitation (TE) 메커니즘 도입.
CT-Modules를 ResNet 블록에 통합하여 구축된 CT-Net이 대형 비디오 벤치마크에서 우호적인 정확도-효율성 균형을 달성함을 입증

제안 방법

입력 채널을 K개의 부분 차원의 곱으로 표현: C = C1 × C2 × ... × CK.
각 채널 부분 차원에서 텐서 분리 합성 컨볼루션(TSConv)을 적용하여 점차 전체 특징 상호 작용을 가능하게 하고 3D 수용 영역을 확장합니다.
3D TSConv을 공간(S-TSConv)과 시간(T-TSConv) 텐서 분리 합성 컨볼루션으로 분해하고 이들의 출력을 병렬로 융합합니다(Xk = Xk^S + Xk^T).
각 CT-Module에 공간 TE(S-TE), 시간 TE(T-TE), 채널 TE(PW-TSConv 기반)을 포함한 텐서 Excitation을 장착하여 차원 간 협력 특징 상호 작용을 강화합니다.
CT-Module을 ResNet 기반 CT-Net에 통합하여 선택된 ResBlock을 CT-Block으로 교체하고 비디오 분류를 위한 유연하고 효율적인 네트워크를 구현합니다.
참고: TE 메커니즘은 텐서 인식 방식으로 공간, 시간 및 채널 차원을 명시적으로 주의합니다.

실험 결과

연구 질문

RQ1다중 하위 차원 분해를 통한 채널 텐서화가 계산을 감소시키면서도 비디오 표현 품질을 유지하거나 향상시킬 수 있는가?
RQ2채널 하위 차원에서의 텐서 분리 합성 컨볼루션이 3D 수용 영역을 점진적으로 확장시켜 더 나은 행동 인식을 가져오나?
RQ3Tensor Excitation 메커니즘이 CT-Module에서 공간, 시간 및 채널 주의로부터 측정 가능한 이점을 제공하는가?
RQ4CT-Net이 CT-Blocks로 구성될 때 Kinetics-400 및 Something-Something V1/V2와 같은 데이터셋에서 정확도와 GFLOPs 측면에서 최첨단 2D/3D 비디오 모델과 어떻게 비교되는가?
RQ5하위 차원의 수(K)와 하위 차원 크기(Ci)의 변화가 성능과 효율성에 미치는 영향은 무엇인가?

주요 결과

CT-Module은 여러 3D 컨볼루션 기준선에 비해 낮은 GFLOPs로 경쟁력 있는 정확도를 제공합니다.
하위 차원(K)을 증가시키면 계산이 줄어들고, 2D 채널 텐서화를 사용하면 우호적인 정확도-효율성 트레이드오프를 얻을 수 있습니다.
병렬 공간 및 시간 텐서 분리 합성 컨볼루션은 직렬 또는 결합 구성보다 우수한 성능을 보입니다.
Tensor Excitation (TE)은 공간, 시간 및 채널 차원 간 협력 특징 상호 작용을 효과적으로 촉진하여 CT-Module에 추가 이점을 제공합니다.
CT-Net 변형 중 CT-Blocks를 갖춘 모델은 Something-Something V1/V2에서 최첨단 결과에 도달하거나 이를 상회하는 성능을 보여주며 Kinetics-400에서도 경쟁력 있는 결과를 제공합니다. 이는 특히 효율성 측면에서 큰 이점을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.