QUICK REVIEW

[논문 리뷰] Convolutional Tensor-Train LSTM for Spatio-temporal Learning

Jiahao Su, Wonmin Byeon|arXiv (Cornell University)|2020. 02. 21.

Tensor decomposition and applications참고 문헌 59인용 수 75

한 줄 요약

이 논문은 비디오의 장기 시공간 상관성을 학습하기 위한 고차원 Conv-TT-LSTM(Convolutional Tensor-Train LSTM)을 제안하며, 합성곱 텐서 트레인 분해를 사용해 여러 과거 상태를 압축적으로 모델링하고 비디오 예측과 조기 활동 인식에서 최첨단 결과를 달성한다.

ABSTRACT

Learning from spatio-temporal data has numerous applications such as human-behavior analysis, object tracking, video compression, and physics simulation.However, existing methods still perform poorly on challenging video tasks such as long-term forecasting. This is because these kinds of challenging tasks require learning long-term spatio-temporal correlations in the video sequence. In this paper, we propose a higher-order convolutional LSTM model that can efficiently learn these correlations, along with a succinct representations of the history. This is accomplished through a novel tensor train module that performs prediction by combining convolutional features across time. To make this feasible in terms of computation and memory requirements, we propose a novel convolutional tensor-train decomposition of the higher-order model. This decomposition reduces the model complexity by jointly approximating a sequence of convolutional kernels asa low-rank tensor-train factorization. As a result, our model outperforms existing approaches, but uses only a fraction of parameters, including the baseline models.Our results achieve state-of-the-art performance in a wide range of applications and datasets, including the multi-steps video prediction on the Moving-MNIST-2and KTH action datasets as well as early activity recognition on the Something-Something V2 dataset.

연구 동기 및 목표

일차 ConvLSTM를 넘어서 비디오 데이터에서 장기 시공간 상관관계를 모델링할 필요성을 제기한다.
새로운 Convolutional Tensor-Train Decomposition (CTTD)을 사용하여 계산적으로 효율적인 고차 ConvLSTM을 개발한다.
N 타임스텝에서 선형 시간 인자화로 템포럴 수용영역을 확장하면서 공간 구조를 보존한다.
여러 데이터셋에 걸쳐 비디오 예측과 조기 활동 인식에서 강한 실험적 성능을 보여준다.
고차 시공간 학습을 안정화하고 개선하는 학습 전략 및 아키텍처 구성요소를 제공한다.

제안 방법

H(t−1),…,H(t−N)로부터 정보를 집계하는 함수 Φ(H(t−1),…,H(t−N))를 통해 다수의 과거 숨겨진 상태로부터 정보를 집계하는 고차 ConvLSTM을 제안한다.
연속된 컨볼루션 커널 K(i)들을 G(j)의 연쇄로 분해하는 Convolutional Tensor-Train Decomposition (CTTD)을 도입하여 과거 순서 N에 비례한 매개변수 증가를 가능하게 한다.
과거 숨겨진 상태로부터 중첩된 채널감소 표현 ˜H(i)를 생성하는 전처리 모듈을 사용하여 그래디언트 문제를 완화하고 차원을 제어한다.
Conv-TT-LSTM 업데이트를 [I(t); F(t); ˜C(t); O(t)] = σ(W ∗ X(t) + CTTD{G(1),…,G(N)} ∗ [˜H(1),…,˜H(N)])로 정의한다.
CTT 모듈 연산이 선형 시간 O(N)으로 수행될 수 있음을 보여주어 효율성과 확장성 제약을 충족한다.
고차 학습을 안정화하기 위한 학습률 스케줄, 계획된 샘플링, 커리큘럼 학습 및 그래디언트 클리핑을 포함한 학습 전략을 제공한다.

실험 결과

연구 질문

RQ1고차 ConvLSTM이 매개변수의 지수적 증가 없이 더 긴 시간 이력을 포함하면서 공간 구조를 보존할 수 있는가?
RQ2Convolutional Tensor-Train Decomposition (CTTD)가 장거리 시공간 의존성을_efficiency 있게 모델링할 수 있는가?
RQ3전처리 및 학습 전략이 고차 시공간 모델의 최적화와 일반화에 도움이 되는가?
RQ4Conv-TT-LSTM의 비디오 예측 및 조기 활동 인식 성능이 ConvLSTM, 3D-CNN, 최첨단 예측기들과 비교하여 어떠한가?

주요 결과

Conv-TT-LSTM은 평가된 데이터셋 전반에서 비디오 예측과 조기 활동 인식에서 ConvLSTM 기본 모델을 지속적으로 능가한다.
Something-Something v2에서 모델은 최첨단보다 절대적으로 8% 정확도 향상을 달성한다.
다중 단계 비디오 예측에서 Conv-TT-LSTM은 Moving-MNIST-2 및 KTH 데이터셋에서 새로운 최첨단 결과를 달성한다.
CTTD는 매개변수 수와 FLOPs를 감소시키면서 예측 성능을 유지하거나 향상시키고, 장기 시공간 모델링을 가능하게 한다.
원리적 전처리 모듈과 학습 전략은 고차 모델의 안정화와 개선에 필수적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.