[論文レビュー] Compression-aware Training of Deep Networks
本論文は、訓練中に低秩正則化を導入して、訓練後に効果的に圧縮可能なコンパクトな深層ネットワークを生成し、最小限の精度低下で高い圧縮を達成することを示す。
In recent years, great progress has been made in a variety of application domains thanks to the development of increasingly deeper neural networks. Unfortunately, the huge number of units of these networks makes them expensive both computationally and memory-wise. To overcome this, exploiting the fact that deep networks are over-parametrized, several compression strategies have been proposed. These methods, however, typically start from a network that has been trained in a standard manner, without considering such a future compression. In this paper, we propose to explicitly account for compression in the training process. To this end, we introduce a regularizer that encourages the parameter matrix of each layer to have low rank during training. We show that accounting for compression during training allows us to learn much more compact, yet at least as effective, models than state-of-the-art compression techniques.
研究の動機と目的
- 過剰なパラメータ化とデプロイメント制約に起因するコンパクトな深層ネットワークの必要性を動機づける。
- 訓練中に各層のパラメータ行列の低秩を促進する正則化子を提案する。
- 単位レベルおよび層レベルの圧縮を強化するため、低秩正則化とグループスパース性を組み合わせる。
- 圧縮を意識した訓練が、ImageNetとICDARで小さな精度損失でより高い圧縮率をもたらすことを示す。
- 推論コストをさらに削減するために、SVDベースの因数分解による後処理を示す。
提案手法
- 各層のパラメータ行列に対する核ノルム正則化子と監督付き損失を組み合わせた正則化目的関数で学習を定式化する。
- 層ごとの近接更新を最適化するために、近接確率的勾配降下法を用いる。
- グループレベルと個々のパラメータのスパース性を促進するために、スパースグループラッソ項を導入する。
- 層内のユニット冗長性を活用するため、低秩正則化とグループスパース性を組み合わせる。
- 推論時には、各層を二つのより小さな層に分解するためにSVDベースの後処理を適用する。
- 精度と圧縮のトレードオフを制御するために、特異値(e_l)のエネルギーベースの切り捨てを許可する。
実験結果
リサーチクエスチョン
- RQ1訓練中に学習された低秩正則化が、後処理で高い圧縮性を持つネットワークを生み出せるか?
- RQ2低秩正則化とグループスパース性を組み合わせると、単独の低秩より圧縮が向上するか?
- RQ3ImageNetおよびICDARデータセットにおける精度とMACsに対する圧縮を意識した訓練の影響は何か?
- RQ4提案手法は、Denton型後処理や既存のスパース性手法と、パラメータ数、MACs、精度の観点でどう比較されるか?
- RQ5トレーニング中に得られる実用的な利点、例えばより高速なプルーニングやリローディング戦略などは何か?
主な発見
- ImageNetとICDARで、後処理ベースのベースラインと比較して、精度損失を最小限に抑えつつ大幅な圧縮を達成。
- ResNet-50で、グループスパ sparsityと組み合わせた場合、20.6%の圧縮で75.0%のtop-1精度、27%の圧縮で75.2%のtop-1精度を達成。
- ICDARでは、いくつかの構成でパラメータとMACsの削減が90%を超え、強い精度を維持。
- ImageNetのDec8-512モデルでは、20%超のパラメータ削減(一部設定で>50%)を、ベースラインと同等の精度で報告。
- 低秩正則化だけで既に全ユニットの除去を引き起こす傾向があり、訓練中のモデル選択を提供することを推測。
- エネルギーベースの切り捨て( e_l )によって精度と効率のトレードオフを制御し、80–100%のエネルギー保持でMAC削減が有利になる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。