[论文解读] On the Effectiveness of Low-Rank Matrix Factorization for LSTM Model Compression
本文提出将低秩矩阵分解(MF)作为长短期记忆(LSTM)网络的后处理压缩方法,表明MF在压缩LSTM循环门方面优于剪枝,尤其在加法递归结构中,通过保持更高的矩阵范数稳定性来保留显著特征。该方法在性能损失极小的情况下实现了高达2倍(200%更快)的推理速度提升,且在高度压缩模型上微调后甚至实现了性能的轻微提升。
Despite their ubiquity in NLP tasks, Long Short-Term Memory (LSTM) networks suffer from computational inefficiencies caused by inherent unparallelizable recurrences, which further aggravates as LSTMs require more parameters for larger memory capacity. In this paper, we propose to apply low-rank matrix factorization (MF) algorithms to different recurrences in LSTMs, and explore the effectiveness on different NLP tasks and model components. We discover that additive recurrence is more important than multiplicative recurrence, and explain this by identifying meaningful correlations between matrix norms and compression performance. We compare our approach across two settings: 1) compressing core LSTM recurrences in language models, 2) compressing biLSTM layers of ELMo evaluated in three downstream NLP tasks.
研究动机与目标
- 研究低秩矩阵分解(MF)与剪枝在自然语言处理任务中压缩LSTM模型的有效性。
- 确定MF与剪枝在不同LSTM组件中的相对有效性,特别是加法递归与乘法递归之间的差异。
- 分析矩阵范数(L1范数、核范数)与压缩性能之间的关系。
- 在语言建模和下游NLP任务中评估压缩效果,包括对高度压缩模型进行微调的影响。
- 为已调优的紧凑模型提供一种实用的后处理压缩方法,尤其适用于重训练成本较高的场景。
提出的方法
- 通过将LSTM门的权重矩阵(W_i, W_h)分解为两个低秩矩阵(U × V),对LSTM门的权重矩阵应用低秩矩阵分解,以减少参数量。
- 使用结构化剪枝去除LSTM矩阵中低幅度的权重,比较不同压缩比率下MF与剪枝的性能表现。
- 通过在PTB、Wiki-Text 2、SQuAD和SNLI数据集上的推理速度提升与评估指标下降(如困惑度、准确率)来衡量压缩效果。
- 分析矩阵范数(L1范数、标准差、核范数)以关联结构特性与压缩性能。
- 对高度压缩的模型(如约98%压缩率)进行微调,以恢复或提升性能。
- 在不同组件(W_i与W_h)和任务之间比较MF与剪枝,以识别可压缩性的模式。
实验结果
研究问题
- RQ1低秩矩阵分解是否在多种NLP任务中均优于剪枝,实现对LSTM模型的压缩?
- RQ2在LSTM中,加法递归是否比乘法递归更具可压缩性或更关键?
- RQ3矩阵范数(L1范数、核范数)与压缩性能及模型稳定性之间有何关联?
- RQ4高度压缩的模型(如参数减少98%)是否可通过微调实现优于原始模型的性能?
- RQ5某些权重矩阵(如W_h)的固有低秩结构是否可解释MF在这些矩阵上取得更好压缩效果的原因?
主要发现
- 低秩矩阵分解在压缩LSTM门方面始终优于剪枝,尤其在加法递归结构中,因其能更好地保留显著特征。
- 加法递归(W_i)比乘法递归(W_h)更具可压缩性且更关键,因为对W_i应用MF可在高压缩率下实现更优性能。
- 矩阵范数(尤其是L1范数及其标准差)与压缩性能密切相关:MF提高了范数的变异性,表明重要权重得到了更好保留。
- 核范数分析证实,W_h的固有秩低于W_i,这解释了为何在某些情况下MF在W_h上表现更优,尤其是在压缩率较低时。
- 微调后,参数减少约98%的模型实现了高达2倍(200%)的推理速度提升,且在PTB数据集上性能略优于未压缩基线模型。
- 仅在ELMo中的W_h等高度稀疏矩阵上,剪枝优于MF,因其通过置零已很小的值,保持了L1范数的稳定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。