[论文解读] Tensor-Train Recurrent Neural Networks for Video Classification
本文提出端到端的张量-训练层以分解 RNN 的输入到隐藏权重,使 TT-RNN 能以显著更少的参数处理高维视频数据,同时实现具有竞争力的精度。
The Recurrent Neural Networks and their variants have shown promising performances in sequence modeling tasks such as Natural Language Processing. These models, however, turn out to be impractical and difficult to train when exposed to very high-dimensional inputs due to the large input-to-hidden weight matrix. This may have prevented RNNs' large-scale application in tasks that involve very high input dimensions such as video modeling; current approaches reduce the input dimensions using various feature extractors. To address this challenge, we propose a new, more general and efficient approach by factorizing the input-to-hidden weight matrix using Tensor-Train decomposition which is trained simultaneously with the weights themselves. We test our model on classification tasks using multiple real-world video datasets and achieve competitive performances with state-of-the-art models, even though our model architecture is orders of magnitude less complex. We believe that the proposed approach provides a novel and fundamental building block for modeling high-dimensional sequential data with RNN architectures and opens up many possibilities to transfer the expressive and advanced architectures from other domains such as NLP to modeling high-dimensional sequential data.
研究动机与目标
- 在不依赖庞大 CNN 预处理器的情况下,激励使用端到端的 RNN 对高维视频数据进行建模。
- 引入张量-训练因式分解(Tensor-Train Factorization)以压缩 RNN 中的输入到隐藏层权重映射。
- 开发与网络其他部分端到端共同训练的张量-训练RNN变体(TT-SRNN、TT-GRU、TT-LSTM)。
- 证明 TT-RNN 在多个视频基准数据集上能够在显著更少参数的情况下实现具有竞争力的性能。
提出的方法
- 解释 Tensor-Train Factorization(TTF)及其核心张量作为通过乘法链重构权重矩阵的 TT-core。
- 用一个端到端训练的 Tensor-Train Layer(TTL)替代输入到隐藏的权重矩阵。
- 将 TTL 应用于 TT-GRU 和 TT-LSTM 的门控机制(以及一个普通的 TT-SRNN 变体),以建模高维序列。
- 使用双索引(i_k, j_k)以实现权重张量的高效 TT 表示。
- 通过将门控连接起来以减少参数数量和计算量,提供一种并行化技巧。
- 展示压缩率,其中大型全连接层(如 14,745,600 参数)被参数量为数千的 TTL 替代。
实验结果
研究问题
- RQ1Tensor-Train 因式分解是否能够有效地整合到 RNN 中,以端到端处理高维视频输入?
- RQ2在标准视频分类基准上,TT-RNN 的性能如何与普通 RNN(GRU/LSTM)以及基于 CNN 的预处理管线相比?
- RQ3在 LSTM/GRU 架构中使用 TTLs 处理视频数据时,参数和训练时间权衡是什么?
主要发现
- TT-GRU 在 UCF11 上达到 0.813 的准确率,只有 3,232 个输入到隐藏参数(相比普通 GRU 的 44,236,800)。
- TT-LSTM 在 UCF11 上达到 0.796 的准确率,只有 3,360 个输入到隐藏参数(相比普通 LSTM 的 58,982,400)。
- 在 Hollywood2 上,TT-GRU 实现 0.537 的 MAP,TT-LSTM 实现 0.546 的 MAP,输入到隐藏参数约为 3,104–3,304,显著降低模型规模。
- TT-RNN 变体显著减少训练时间(TT 变体约 2 天,而普通 GRU/LSTM 在 UCF11 上需 8–10 天)。
- 在 Youtube Celebrities Face 数据上,TT-GRU 实现 0.800 的准确率,TT-LSTM 0.755,参数约 3,328–3,392,相较于普通 LSTM/GRU 在参数效率方面具有优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。