QUICK REVIEW

[論文レビュー] Diversity Networks: Neural Network Compression Using Determinantal Point Processes

Zelda Mariet, Suvrit Sra|arXiv (Cornell University)|Nov 16, 2015

Stochastic Gradient Optimization Techniques参考文献 23被引用数 50

ひとこと要約

本稿では、DPP（Determinantal Point Process）を用いて層内の多様なニューロンを選択し、重複するニューロンを統合するための重み再調整を行うことで、モデルサイズを著しく削減しつつ性能の低下を最小限に抑える、新しいニューラルネットワーク圧縮手法Divnetを提案する。この手法により、ネットワークアーキテクチャの自動チューニングが可能となり、従来の pruning 技術に比べて精度と効率の両面で優れている。

ABSTRACT

We introduce Divnet, a flexible technique for learning networks with diverse neurons. Divnet models neuronal diversity by placing a Determinantal Point Process (DPP) over neurons in a given layer. It uses this DPP to select a subset of diverse neurons and subsequently fuses the redundant neurons into the selected ones. Compared with previous approaches, Divnet offers a more principled, flexible technique for capturing neuronal diversity and thus implicitly enforcing regularization. This enables effective auto-tuning of network architecture and leads to smaller network sizes without hurting performance. Moreover, through its focus on diversity and neuron fusing, Divnet remains compatible with other procedures that seek to reduce memory footprints of networks. We present experimental results to corroborate our claims: for pruning neural networks, Divnet is seen to be notably superior to competing approaches.

研究の動機と目的

深層ニューラルネットワークにおける冗長パラメータの課題に対処すること。これにより、メモリ使用量と学習コストが増加する。
隠れ層内でのニューロンの多様性を促進することで、原理的かつ柔軟にネットワークサイズを縮小する手法を開発すること。
再訓練を最小限に抑えつつ性能を維持する、自動的でポストトレーニングのネットワーク圧縮を可能にすること。
ニューロン統合後のモデル精度を保持する再重み付け手順を設計すること。
他の圧縮技術と互換性があり、さまざまなネットワークアーキテクチャに適用可能な手法を構築すること。

提案手法

ニューロン活性化ベクトルから導出されたカーネル行列を用いた Determinantal Point Process (DPP) を用いて、層内のニューロンの多様性をモデル化する。
DPP分布から多様なニューロンのサブセットをサンプリングし、保持するニューロンとして採用する。
接続重みを調整することで、削除されたニューロンの影響を選択されたニューロンに移管する再重み付け手順を適用する。
ニューロンの類似度を測定し多様性を促進するために、ガウスRBFまたは他の類似度測定法に基づくDPPカーネルを用いる。
活性化関数、学習率、ネットワークの深さに依存せず、広範な互換性を実現する。
訓練データのサブセットサイズを調整することで、サンプリングと再重み付けの精度をチューニング可能にし、速度と精度のバランスを取る。

実験結果

リサーチクエスチョン

RQ1DPPに基づくニューロンサンプリングは、ランダムまたはマグニチュードベースの pruning よりも、より効果的で多様なネットワーク圧縮を実現できるか？
RQ2提案された再重み付け機構は、ニューロン統合後のモデル性能を適切に保持できるか？
RQ3さまざまなデータセットとアーキテクチャにおいて、Divnetは従来の pruning 方法と比較して、精度とモデルサイズ削減の両面で優れているか？
RQ4Divnetは、アーキテクチャの変更なしに、CNNの全結合層やその他の深層ネットワークに対しても効果的に適用可能か？
RQ5DPPの使用により、標準的な pruning 策略と比較して、より良い一般化性能や暗黙の正則化が得られるか？

主な発見

Divnetは、MNIST、CIFAR-10、SVHNの各データセットにおいて、競合する pruning 方法と比較して、テスト精度で一貫して優れている。
MNISTでは、100個のニューロンを用いて、テスト誤差 0.49 ± 0.004 を達成し、同じサイズのすべてのベースラインを上回った。
CIFAR-10では、100個のニューロンを用いて、テスト誤差 0.51 ± 0.005 を達成し、他の手法と比べ顕著に優れていた。
再重み付け手順そのものが、すべてのベースラインで性能向上をもたらした。これは、その一般化された利点を示している。
サンプリングと再重み付けは、トレーニングに比べて桁違いに高速であり、ポストトレーニング圧縮に実用的であることを示した。
DPPカーネルからの期待サンプルサイズは、最後の隠れ層で一貫して小さく、出力層の接続の収束が速いことを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。