QUICK REVIEW

[論文レビュー] Learning Intrinsic Sparse Structures within Long Short-Term Memory

Wei Wen, Yuxiong He|arXiv (Cornell University)|Sep 15, 2017

Topic Modeling参考文献 25被引用数 103

ひとこと要約

論文は Intrinsic Sparse Structures (ISS) を導入し、グループ化された稀疎性を学習して基本的な LSTM コンポーネントを縮小しつつ元のアーキテクチャを維持することで LSTM と RHN モデルを圧縮し、言語モデリングと QA タスクで困惑度の大幅な低下をほとんど損なわずに高速化を実現する。

ABSTRACT

Model compression is significant for the wide adoption of Recurrent Neural Networks (RNNs) in both user devices possessing limited resources and business clusters requiring quick responses to large-scale service requests. This work aims to learn structurally-sparse Long Short-Term Memory (LSTM) by reducing the sizes of basic structures within LSTM units, including input updates, gates, hidden states, cell states and outputs. Independently reducing the sizes of basic structures can result in inconsistent dimensions among them, and consequently, end up with invalid LSTM units. To overcome the problem, we propose Intrinsic Sparse Structures (ISS) in LSTMs. Removing a component of ISS will simultaneously decrease the sizes of all basic structures by one and thereby always maintain the dimension consistency. By learning ISS within LSTM units, the obtained LSTMs remain regular while having much smaller basic structures. Based on group Lasso regularization, our method achieves 10.59x speedup without losing any perplexity of a language modeling of Penn TreeBank dataset. It is also successfully evaluated through a compact model with only 2.69M weights for machine Question Answering of SQuAD dataset. Our approach is successfully extended to non- LSTM RNNs, like Recurrent Highway Networks (RHNs). Our source code is publicly available at https://github.com/wenwei202/iss-rnns

研究の動機と目的

RNN に対するモデル圧縮を動機づけ、デバイスやサービス上で効率的な推論を可能にする。
Intrinsic Sparse Structures (ISS) を定義し、基本的な LSTM コンポーネントを縮小する一方で次元整合性を維持する。
ISS 重みグループを訓練中または微調整中に削除するためのグループラッソを基盤とした学習法を開発する。
LSTM と RHN を用いた言語モデリング（Penn TreeBank）と機械読解（SQuAD）で有効性を示す。
ISS を RHN および他の RNN バリアントへ拡張可能性を示す。

提案手法

8つの LSTM 重み行列を、それぞれの ISS コンポーネントの左側および右側の接続に対応する ISS 重みグループに整理する。
損失関数にグループラッソの正則化項 R(w)=sum over ISS groups of ||w_k^(n)||_2 を追加して、グループ稀疎性を促進する（式2）。
式3に従い、正則化勾配項 w_k/||w_k||_2 に比例する項を含む SGD で ISS 重みを更新する。
ミニバッチごとに閾値 tau 未満の小さな重みを閾値処理して稀疎性を安定化させる（式4）。
連結層全体のコンポーネント（行/列）を剪定することで、次元整合性を維持し無効な LSTM 構造を回避できるよう ISS の剪定を許す。
ISS 学習をスクラッチからまたは微調整から拡張し、RHN および BiDAF ベースの QA モデルに適用する。

実験結果

リサーチクエスチョン

RQ1LSTM 内の intrinsic sparse structures を学習して、次元整合性を崩さずに入力更新、ゲート、隠れ状態、セル状態、出力のサイズを削減できるか？
RQ2グループラッソベースの ISS 稀疎化学習は、タスク性能を維持または最小限に影響しつつ、有意な速度アップとメモリ削減をもたらすか？
RQ3ISS は RHN および BiDAF のような最先端の QA モデルの圧縮と精度の点でどの程度適用できるか？
RQ4スパースレベル、困惑度/EM-F1 スコア、および言語とタスクを横断する推論速度とのトレードオフはどうなるか？

主な発見

方法	困惑度（検証, テスト）	ISS の数（1層目, 2層目）LSTM	重みの数	総計時間	スピードアップ	乗算+加算の削減
baseline	82.57, 78.57	(1500, 1500)	66.0 M	157.0 ms	1.00x	1.00x
ISS (スクラッチから学習)	82.59, 78.65	(373, 315)	21.8 M	14.82 ms	10.59x	7.48x
ISS (コンパクト)	80.24, 76.03	(381, 535)	25.2 M	22.11 ms	7.10x	5.01x
直接設計（スクラッチから）	90.31, 85.66	(373, 315)	21.8 M	14.82 ms	10.59x	7.48x

ISS の学習により Penn TreeBank で LSTM のサイズを 1500 から 373（第1層）および 315（第2層）へ削減しつつ困惑度を維持し、推論速度は 10.59x の高速化を達成。
コンパクトな 25.2M パラメータ設計（基準 66.0M）でも性能を維持し 7.10x の速度アップ、そして小型の LSTM を直接設計するのは、より大きなモデルから学習した ISS と比較して劣る。
RHN 実験では幅を 830 から 517（11.1M パラメータ）へ縮小して困惑度の損失なし、さらに 403（7.6M）まで縮小しても競争力を維持。より大きな縮小は困惑度を悪化させる（最大で 74.5/71.2）。
SQuAD ベースの BiDAF では ISS 稀疎化により複数の LSTM モジュールを縮小しつつ EM/F1 を許容範囲内に保持。ISS からのスクラッチ学習は大幅な圧縮をもたらす（例：基準 2.69M がさまざまなモジュールで 0.88–2.29M に削減）と速度アップ。
ISS 学習はスクラッチから学習した単純な小型設計よりも優れることがあり、RNN における構造認識を伴う稀疎化の利点を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。