Skip to main content
QUICK REVIEW

[論文レビュー] On the Effectiveness of Low-Rank Matrix Factorization for LSTM Model Compression

Genta Indra Winata, Andrea Madotto|arXiv (Cornell University)|Aug 27, 2019
Topic Modeling参考文献 47被引用数 26
ひとこと要約

本稿では、長短期記憶(LSTM)ネットワークの後処理圧縮手法として、低ランク行列分解(MF)を提案する。MFは、特に加法的再帰において、より高い行列ノルム安定性により顕著な特徴を保持することで、スパarsification(刈り込み)を上回ることを示している。この手法により、性能低下を最小限に抑えつつ、最大2倍(200%高速)の推論速度向上が達成され、極めて圧縮されたモデルでは微調整後にわずかに性能が向上する。

ABSTRACT

Despite their ubiquity in NLP tasks, Long Short-Term Memory (LSTM) networks suffer from computational inefficiencies caused by inherent unparallelizable recurrences, which further aggravates as LSTMs require more parameters for larger memory capacity. In this paper, we propose to apply low-rank matrix factorization (MF) algorithms to different recurrences in LSTMs, and explore the effectiveness on different NLP tasks and model components. We discover that additive recurrence is more important than multiplicative recurrence, and explain this by identifying meaningful correlations between matrix norms and compression performance. We compare our approach across two settings: 1) compressing core LSTM recurrences in language models, 2) compressing biLSTM layers of ELMo evaluated in three downstream NLP tasks.

研究の動機と目的

  • 自然言語処理(NLP)タスクにおけるLSTMモデルの圧縮に、低ランク行列分解(MF)とスパarsification(刈り込み)の有効性を調査すること。
  • 特に加法的再帰と乗法的再帰の違いを考慮して、MFと刈り込みのどちらがLSTMの異なる構成要素に対してより効果的であるかを特定すること。
  • 行列ノルム(L1、核ノルム)と圧縮性能の関係を分析すること。
  • 言語モデル構築および下流NLPタスクにおける圧縮効果を評価し、極めて圧縮されたモデルにおける微調整の影響を検証すること。
  • 再トレーニングがコストがかかる状況下で、すでに調整済みでコンパクトなモデルに対して実用的な後処理圧縮手法を提供すること。

提案手法

  • LSTMゲート(W_i、W_h)の重み行列に対して低ランク行列分解を適用し、それらを2つの低ランク行列(U × V)に分解することでパラメータ数を削減する。
  • 構造的刈り込みを用いてLSTM行列内の小さな重みを削除し、さまざまな圧縮比におけるMFと刈り込みの性能を比較する。
  • PTB、Wiki-Text 2、SQuAD、SNLIにおける推論速度向上と評価指標の低下(例:Perplexity、精度)を測定することで、圧縮効果を測定する。
  • 行列ノルム(L1、標準偏差、核ノルム)を分析し、構造的性質と圧縮性能の相関関係を特定する。
  • 極めて圧縮されたモデル(例:約98%の圧縮)に対して微調整を実施し、性能の回復または向上を確認する。
  • MFと刈り込みを、W_iとW_hの異なる構成要素およびタスク間で比較することで、圧縮可能性のパターンを同定する。

実験結果

リサーチクエスチョン

  • RQ1低ランク行列分解は、多様なNLPタスクにおいて、スパarsification(刈り込み)を上回る性能でLSTMモデルを圧縮できるか?
  • RQ2加法的再帰は乗法的再帰よりも圧縮可能で、より重要であるか?
  • RQ3L1ノルムおよび核ノルムといった行列ノルムは、圧縮性能およびモデル安定性とどのように相関するか?
  • RQ4極めて圧縮されたモデル(例:98%の削減)は、微調整により元のモデルを上回る性能を達成できるか?
  • RQ5特定の重み行列(例:W_h)に内在する低ランク構造が、より良い圧縮結果を説明できるか?

主な発見

  • 低ランク行列分解は、加法的再帰において特に顕著な特徴の保持が可能であるため、MFはスパarsification(刈り込み)を常に上回り、LSTMゲートの圧縮において優れた性能を示す。
  • 加法的再帰(W_i)は乗法的再帰(W_h)よりも圧縮可能で、より重要である。MFをW_iに適用することで、高圧縮比でも優れた性能が得られる。
  • L1ノルムおよびその標準偏差は、圧縮性能と強く相関しており、MFはノルムのばらつきを増加させることで、重要な重みの保持が図られていることを示している。
  • 核ノルム分析により、W_hはW_iよりも本質的に低ランクであることが確認され、これはMFがW_hにおいても一部の状況(特に低圧縮時)で良好な結果をもたらす理由を説明している。
  • 微調整後、約98%のパラメータ削減がなされたモデルでは、最大2倍(200%高速)の推論速度向上が達成され、PTBでは元のベースラインをわずかに上回る性能を達成した。
  • MFより刈り込みが優れているのは、ELMoのW_hのような極めてスパースな行列において、すでに小さな値を0に設定することでL1ノルム安定性を維持できる場合に限る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。