[論文レビュー] Deep $k$-Means: Re-Training and Parameter Sharing with Harder Cluster Assignments for Compressing Deep Convolutions
本論文は再訓練時にハードクラスタ割り当てを促すスペクトル的に緩和した k-means 正則化と、畳み込み重みの行ごとパラメータ共有戦略を提案し、エネルギー認識評価を考慮したCNNの効果的な圧縮を実現する。
The current trend of pushing CNNs deeper with convolutions has created a pressing demand to achieve higher compression gains on CNNs where convolutions dominate the computation and parameter amount (e.g., GoogLeNet, ResNet and Wide ResNet). Further, the high energy consumption of convolutions limits its deployment on mobile devices. To this end, we proposed a simple yet effective scheme for compressing convolutions though applying k-means clustering on the weights, compression is achieved through weight-sharing, by only recording $K$ cluster centers and weight assignment indexes. We then introduced a novel spectrally relaxed $k$-means regularization, which tends to make hard assignments of convolutional layer weights to $K$ learned cluster centers during re-training. We additionally propose an improved set of metrics to estimate energy consumption of CNN hardware implementations, whose estimation results are verified to be consistent with previously proposed energy estimation tool extrapolated from actual hardware measurements. We finally evaluated Deep $k$-Means across several CNN models in terms of both compression ratio and energy consumption reduction, observing promising results without incurring accuracy loss. The code is available at https://github.com/Sandbox3aster/Deep-K-Means
研究の動機と目的
- 現代のCNNにおいてパラメータとエネルギー消費を支配する畳み込み層の圧縮の必要性を動機づける。
- 後続の共有のためのクラスタ化重み構造を促進する正則化ベースの再訓練フレームワークを開発する。
- エネルギー効率の高いハードウェアデータフローに適合した行ごと k-means パラメータ共有方式を提案する。
- 従来の圧縮比を超えたCNNのエネルギー消費をより良く推定するためのエネルギー認識指標を導入する。
提案手法
- 畳み込み層を W ∈ R^{s x N} に整形し、N 個の列を K 個の中心へクラスタリングすることでパラメータ共有を定式化する。
- 訓練目的とクラスタ形成の補助変数 F を結ぶスペクトル的に緩和された k-means 正則化項を導入し、E(W) + (λ/2)[Tr(W^T W) - Tr(F^T W^T W F)]、F^T F = I とする。
- W を SGD で ∇E(W) + λ W(I - F F^T) で更新し、F は W の k-トuncated SVD を用いて更新する。
- 最終的なパラメータ共有のために行ごとに k-means を適用し、K 個の中心と重み割り当てインデックスを得て、重み共有による圧縮を実現する。
- エネルギー認識指標を組み込み、FAs(計算コスト)、重み・活性化の表現コスト、データ移動の考慮を含む CNN のエネルギー消費を推定する。
- Deep k-Means を、GoogleNet / ImageNet スペクトルを含む複数のベースラインと比較し、圧縮率とエネルギー指標における有利なトレードオフを示す。
実験結果
リサーチクエスチョン
- RQ1スペクトル的に緩和された k-means 正則化は再訓練中に畳み込み重みをハードなクラスタ割り当てへ導くか。
- RQ2畳み込み重みの行ごと k-means パラメータ共有は、精度損失を最小限に抑えつつより高い圧縮率を達成できるか。
- RQ3提案されたエネルギー認識指標は、CNN アーキテクチャ全体でハードウェアのエネルギー消費の有効な代理指標となるか。
- RQ4Go og leNet や Wide ResNet などの標準モデルおよびエネルギー認識評価において、Deep k-Means は最先端の畳み込み圧縮法と比較してどのような性能を示すか。
主な発見
- Deep k-Means は同じ圧縮率で複数のベースラインよりも高い精度を一貫して達成する。
- スペクトル的に緩和された正則化は再訓練中に概ねハードなクラスタ割り当てを促進し、後続の重み共有を助ける。
- 行ごと k-means パラメータ共有は、エネルギー認識プロファイルに有利な形で畳み込み層の効果的な圧縮を可能にする。
- エネルギー認識指標は、ハードウェア推定値と高い相関を示し(AlexNet で R^2 最大 0.9931、Go og LeNet_v1 で 0.9675 )、信頼性がある。
- GoogleNet のような大規模モデルでは、低 CR(CR ≤ 3)での圧縮はほぼ損失なしであり、CR が高い場合にも精度への影響は小さい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。