Skip to main content
QUICK REVIEW

[论文解读] Tensorized Embedding Layers for Efficient Model Compression

Oleksii Hrinchuk, Valentin Khrulkov|arXiv (Cornell University)|Jan 30, 2019
Advanced Data Compression Techniques参考文献 64被引用 50
一句话总结

本论文引入 TT–embedding,一种基于张量 train 的嵌入层参数化,显著降低内存占用,同时在标准模型中端到端训练的 NLP 任务性能保持或提升。

ABSTRACT

The embedding layers transforming input words into real vectors are the key components of deep neural networks used in natural language processing. However, when the vocabulary is large, the corresponding weight matrices can be enormous, which precludes their deployment in a limited resource setting. We introduce a novel way of parametrizing embedding layers based on the Tensor Train (TT) decomposition, which allows compressing the model significantly at the cost of a negligible drop or even a slight gain in performance. We evaluate our method on a wide range of benchmarks in natural language processing and analyze the trade-off between performance and compression ratios for a wide range of architectures, from MLPs to LSTMs and Transformers.

研究动机与目标

  • 由于大型 NLP 词汇表规模,推动嵌入层的压缩。
  • 提出 TT–embedding 以用张量化表示取代标准嵌入矩阵。
  • 分析在不同 NLP 任务中压缩比与性能之间的权衡。
  • 展示 TT–embedding 在常见体系结构(MLP、LSTM、Transformer)中的端到端可训练性。
  • 提供关于 TT 形状和 TT 级数超参数的实用指南。

提出的方法

  • 通过将输入/输出维度重新塑形为 N 个因子并学习 TT 核,将嵌入矩阵表示为 TT–矩阵。
  • 通过对 TT 核进行切片选择和矩阵乘法的序列运算,收缩 TT 核来计算词嵌入。
  • 用修改后的 Glorot 风格方案初始化 TT 核以确保受控方差,如方程(3)所述。
  • 将 TT–embedding 与标准层(LSTM、Transformer 等)一起通过反向传播进行端到端训练。
  • 可选地将 TT–embedding 与低秩分解和张量环变体进行比较;通过定理 1 阐明 TT 的全秧表达能力。
  • 提供选择 TT 形状和秩的实用指南,并讨论泛化/正则化的影响。

实验结果

研究问题

  • RQ1TT–embedding 是否能够在不降低任务性能的情况下显著压缩嵌入层?
  • RQ2TT–embedding 在压缩比与准确度之间的权衡与低秩分解相比如何?
  • RQ3在 softmax 瓶颈设置下,TT–embeddings 是否保持全表达能力并避免秩崩溃?
  • RQ4TT-形状/秩的选择对训练效率和跨 NLP 任务的泛化有何影响?
  • RQ5TT–embedding 是否对像 CTR 预测和语言模型等大词汇量任务有益?

主要发现

  • TT–embedding 实现了显著的压缩(例如,在 IMDB 上 441×,在 WMT En-De 上 15×,在 WikiText-103 上 3.8×),在某些任务上准确度相同或有所提高。
  • 在 CN 实验中,TT–embedding 在情感分析、NMT 和语言建模等任务中的压缩-准确性权衡方面优于低秩嵌入。
  • 该方法仍可在标准架构中端到端训练,并可在对现有流程进行最小改动的情况下集成。
  • 理论分析表明,TT–embedding 在几乎所有 TT 配置下都保持了嵌入矩阵的全秩,从而减轻 softmax 瓶颈问题。
  • CTR 实验显示压缩高达 2011×,性能损失微小,总模型大小低于 20 MB。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。