QUICK REVIEW

[논문 리뷰] TSM: Temporal Shift Module for Efficient Video Understanding

Ji Lin, Chuang Gan|arXiv (Cornell University)|2018. 11. 20.

Human Pose and Action Recognition참고 문헌 68인용 수 166

한 줄 요약

TSM은 시간 축을 따라 특징 채널을 이동시켜 2D-CNN 내에서 시간 모델링을 가능하게 하는 경량 Temporal Shift Module을 소개하며, 2D-CNN 복잡도로 3D-CNN과 유사한 정확도를 달성하고 온라인 저지연 비디오 작업으로 확장합니다.

ABSTRACT

The explosive growth in video streaming gives rise to challenges on performing video understanding at high accuracy and low computation cost. Conventional 2D CNNs are computationally cheap but cannot capture temporal relationships; 3D CNN based methods can achieve good performance but are computationally intensive, making it expensive to deploy. In this paper, we propose a generic and effective Temporal Shift Module (TSM) that enjoys both high efficiency and high performance. Specifically, it can achieve the performance of 3D CNN but maintain 2D CNN's complexity. TSM shifts part of the channels along the temporal dimension; thus facilitate information exchanged among neighboring frames. It can be inserted into 2D CNNs to achieve temporal modeling at zero computation and zero parameters. We also extended TSM to online setting, which enables real-time low-latency online video recognition and video object detection. TSM is accurate and efficient: it ranks the first place on the Something-Something leaderboard upon publication; on Jetson Nano and Galaxy Note8, it achieves a low latency of 13ms and 35ms for online video recognition. The code is available at: https://github.com/mit-han-lab/temporal-shift-module.

연구 동기 및 목표

현실 세계에 배치하기 위한 정확성과 낮은 계산 비용을 결합한 효율적인 비디오 이해를 촉진한다.
2D-CNN에 통합될 때 추가 계산 및 매개변수를 전혀 필요로 하지 않는 시계열 모델링 메커니즘을 개발한다.
오프라인의 높은 정확도와 온라인의 낮은 지연 시간 비디오 인식 시나리오를 모두 다룬다.

제안 방법

임의의 채널의 부분 집합을 시간 차원으로 이동시켜 이웃 프레임의 정보를 혼합하는 Temporal Shift Module(TSM)을 제안한다.
현재 프레임의 공간 학습을 보존하면서 시간적 융합을 가능하게 하도록 잔차 분기(residual shift) 내부에 TSM을 도입한다.
오프라인 비디오 이해를 위해 양방향 TSM을 채택하고 온라인 실시간 처리를 위해 단방향 TSM을 채택한다.
데이터 이동 및 지연을 최소화하면서 시간 모델링 능력을 유지하기 위해 부분 시프트(예: 채널의 1/4)를 적용한다.
계산량과 매개변수를 2D-CNN 백본과 동일하게 유지하고 엣지 디바이스 적용성을 보여주며 하드웨어 효율성을 입증한다.

실험 결과

연구 질문

RQ1계산량이나 매개변수를 추가하지 않고 2D-CNN에 시간 정보를 어떻게 도입할 수 있는가?
RQ2채널의 일부만 이동시키고 잔차 블록에 시프트를 삽입하는 것이 정확도와 효율성에 어떤 영향을 주는가?
RQ3제안된 TSM이 엣지 디바이스에서 오프라인 상의 높은 정확도와 온라인의 낮은 지연 시간의 비디오 이해를 모두 가능하게 할 수 있는가?

주요 결과

TSM은 시간 정보를 중심으로 하는 데이터셋에서 추가 계산 없이 2D-CNN 베이스라인을 크게 향상시킨다.
양방향 TSM은 Something-Something 데이터셋에서 최첨단 결과를 달성하면서도 2D-CNN의 효율성을 유지한다.
단방향 TSM은 거의 추가 지연 없이 최소한의 메모리로 온라인 저지연 비디오 인식을 가능하게 한다.
TSM은 3D-CNN 및 다른 효율적인 비디오 모델에 비해 우수한 정확도-연산량( FLOPs ) 트레이드오프와 함께 강한 하드웨어 효율성을 제공한다.
TSM은 온라인 영상 객체 탐지로 일반화되며 2D 베이스라인 대비 mAP를 개선하고 지연은 거의 없다.
엣지 배치에서 Jetson Nano 및 Galaxy Note8와 같은 기기에서 실용적인 지연 감소를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.