[論文レビュー] Kernel Based Progressive Distillation for Adder Neural Networks
本稿では、構造的に同一のCNN教師ネットワークからの知識蒸留を活用して、Adderニューラルネットワーク(ANNs)の性能を向上させるためのカーネルベースのプログレッシブ蒸着(PKKD)を提案する。ガウスカーネルおよびラプラスカーネルを用いて特徴量と重みをカーネル誘導された高次元空間にマッピングすることで、分布の乖離を低減し、プログレッシブな知識伝達を可能にした。ImageNet上で76.8%のトップ1精度を達成し、アンサンブルなしのANNおよび元のResNet-50ベースラインを上回った。
Adder Neural Networks (ANNs) which only contain additions bring us a new way of developing deep neural networks with low energy consumption. Unfortunately, there is an accuracy drop when replacing all convolution filters by adder filters. The main reason here is the optimization difficulty of ANNs using $\ell_1$-norm, in which the estimation of gradient in back propagation is inaccurate. In this paper, we present a novel method for further improving the performance of ANNs without increasing the trainable parameters via a progressive kernel based knowledge distillation (PKKD) method. A convolutional neural network (CNN) with the same architecture is simultaneously initialized and trained as a teacher network, features and weights of ANN and CNN will be transformed to a new space to eliminate the accuracy drop. The similarity is conducted in a higher-dimensional space to disentangle the difference of their distributions using a kernel based method. Finally, the desired ANN is learned based on the information from both the ground-truth and teacher, progressively. The effectiveness of the proposed method for learning ANN with higher performance is then well-verified on several benchmarks. For instance, the ANN-50 trained using the proposed PKKD method obtains a 76.8\% top-1 accuracy on ImageNet dataset, which is 0.6\% higher than that of the ResNet-50.
研究の動機と目的
- ℓ₁ノルム最適化における勾配不正確性によって引き起こされるAdderニューラルネットワーク(ANNs)の精度低下を是正すること。
- モデルパラメータや計算コストを増加させることなく、ANNsとCNNsの性能格差を埋めること。
- 重み分布の違い(ラプラス型対ガウス型)があるにもかかわらず、同一構造のANN学生に対してCNN教師から効果的に知識を伝達する手法を開発すること。
- 訓練のダイナミクスや特徴分布のシフトに適応するプログレッシブな蒸着により、ANNの性能を向上させること。
提案手法
- カーネルベースの特徴量および重み変換により、ANNとCNNの特徴量を高次元空間にマッピングし、分布の違いを分離する。
- CNNの特徴量と重みにはガウスカーネルが適用され、ANNにはラプラスカーネルが使用され、変換空間でのより良い整合性を実現する。
- 知識蒸着をカーネル空間で実施し、教師CNNから学生ANNへのソフトラベル情報および特徴レベルの関係性を伝達する。
- CNN教師をANN学生と共に訓練することでプログレッシブな蒸着を実現し、訓練エポックに伴い教師の知識を段階的に精錬・伝達する。
- 学生ネットワークは、真のラベルに対する交差エントロピー損失と、カーネル埋め込みされた教師特徴からの蒸着損失の両方を組み合わせた損失関数で訓練される。
- ハイパーパrameter α と β は、真のラベル損失と蒸着損失のバランスを制御し、CIFARおよびImageNetベンチマーク上で経験的に最適化される。
実験結果
リサーチクエスチョン
- RQ1重み分布と活性化分布の違いがあるにもかかわらず、構造的に同一のANN学生に対してCNN教師からの知識蒸着が性能向上に寄与するか?
- RQ2高次元空間におけるカーネルベースの特徴変換が、ANNとCNNの特徴量間の分布乖離を効果的に低減するか?
- RQ3訓練中に教師ネットワークが進化するプログレッシブな蒸着は、静的教師や非プログレッシブ手法に比べて、ANNの性能向上に寄与するか?
- RQ4PKKDはImageNetのような大規模ベンチマークで、ANNとそのCNN対応物との間の精度格差をどの程度縮められるか?
- RQ5提案手法は追加のパラメータや乗算を導入せずに、ANN分野における最先端の性能を達成するか?
主な発見
- PKKD-ANN-50モデルはImageNetで76.8%のトップ1精度を達成し、元のResNet-50より0.6%高く、アンサンブルなしのvanilla ANN-50より1.9%高い。
- CIFAR-100では、PKKD-ANN-20がα=β=5で69.93%の精度を達成し、vanilla ANN-20を上回り、教師のResNet-20に近い性能に到達した。
- ResNet-18ではANNとCNNのトップ1精度格差を1.8%、ResNet-50では1.9%低減し、強力な性能補償効果を示した。
- カーネルベースの変換を用いることで、ANNとCNN間の特徴量の整合性が顕著に向上し、最適化ダイナミクスの違いにもかかわらず効果的な蒸着が可能になった。
- 共同訓練されたCNN教師を用いたプログレッシブな蒸着戦略は、固定教師や非プログレッシブ手法に比べ、より安定的かつ効果的な知識伝達を実現した。
- 提案手法は乗算を一切行わず、ANN-50では0.1G FLOPsおよび7.6Gの加算演算にとどまり、極めてエネルギー効率が高かった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。