QUICK REVIEW

[論文レビュー] Noisy Machines: Understanding Noisy Neural Networks and Enhancing Robustness to Analog Hardware Errors Using Distillation

Chuteng Zhou, Prad Kadambi|arXiv (Cornell University)|Jan 14, 2020

Neural Networks and Reservoir Computing参考文献 38被引用数 26

ひとこと要約

本論文では、知識蒸留とノイズ注入を用いた深層ニューラルネットワークの訓練手法を提案し、アナログハードウェアノイズに対する耐性を向上させ、従来手法と比較してほぼ2倍のノイズ耐性を達成した。ImageNetと複数のアーキテクチャで実証され、エネルギー効率の高いアナログアクセラレータへの実用的導入を可能にした。

ABSTRACT

The success of deep learning has brought forth a wave of interest in computer hardware design to better meet the high demands of neural network inference. In particular, analog computing hardware has been heavily motivated specifically for accelerating neural networks, based on either electronic, optical or photonic devices, which may well achieve lower power consumption than conventional digital electronics. However, these proposed analog accelerators suffer from the intrinsic noise generated by their physical components, which makes it challenging to achieve high accuracy on deep neural networks. Hence, for successful deployment on analog accelerators, it is essential to be able to train deep neural networks to be robust to random continuous noise in the network weights, which is a somewhat new challenge in machine learning. In this paper, we advance the understanding of noisy neural networks. We outline how a noisy neural network has reduced learning capacity as a result of loss of mutual information between its input and output. To combat this, we propose using knowledge distillation combined with noise injection during training to achieve more noise robust networks, which is demonstrated experimentally across different networks and datasets, including ImageNet. Our method achieves models with as much as two times greater noise tolerance compared with the previous best attempts, which is a significant step towards making analog hardware practical for deep learning.

研究の動機と目的

アナログニューラルネットワークアクセラレータにおける推論精度の低下という課題に取り組む。
ノイズが入力と出力の間の相互情報量を低下させることで、モデルの容量がどのように劣化するかを理解する。
モデルアーキテクチャや推論ハードウェアを変更せずに、耐性を向上させる訓練手法を開発する。
ImageNetを含む多様なモデルとデータセットにおいて、最先端のノイズ耐性を実証する。
ソフトウェアレベルの耐性により、ハードウェアの精度要件を緩和することで、アナログアクセラレータの実用的導入を可能にする。

提案手法

教師モデルから事前学習済みの知識を蒸留することで、学生ニューラルネットワークを訓練し、耐性を転送する。
訓練の順伝播中にガウスノイズをネットワークの重みに注入し、アナログハードウェアの不具合を模倣する。
訓練の安定化と重みの摂動に対する感受性の低減を図るため、ソフトラベル交差エントロピー損失に温度スケーリングパラメータ $ T $ を使用する。
温度 $ T=6 $ とノイズ注入レベル $ \eta $ を用いて、連続的かつランダムな重みノイズに耐性を持つモデルを訓練する。
ノイズ注入された重みを用いて標準的なバックプロパゲーションで学生モデルを最適化し、教師の出力分布を保持する。
複数回の推論実行において、$ \eta \in \{0, 0.02, 0.04, 0.06\} $ の増加するノイズレベルでの耐性を評価する。

実験結果

リサーチクエスチョン

RQ1アナログハードウェアのノイズが、深層ニューラルネットワークの学習容量と推論精度にどのように影響するか？
RQ2知識蒸留は、ニューラルネットワークにおける連続的重みノイズに対して、どの程度耐性を向上させることができるか？
RQ3訓練中にノイズを注入することで、実際のアナログハードウェアノイズを効果的に模倣し、事前準備できるか？
RQ4知識蒸留とノイズ注入の組み合わせは、ベースライン訓練と比較して、ノイズ耐性においてどの程度優れているか？
RQ5ImageNetのような標準ベンチマークにおいて、提案手法が達成可能な最大のノイズ耐性はどの程度か？

主な発見

提案手法は、従来の最良手法と比較して最大で約2倍のノイズ耐性を達成し、耐性が顕著に向上した。
ImageNetとResNet-50を用いた実験では、ノイズ注入と蒸留手法は $ \eta = 0.06 $ 時にTop-1精度67.525%を維持したのに対し、正則化なしの訓練では46.284%にとどまった。
$ \eta = 0.04 $ 時に、本手法は71.442%のTop-1精度を達成し、ベースラインの64.382%を上回った。
ノイズレベルが高くなるほど、知識蒸留とノイズ注入による精度向上が顕著に増大し、ストレス下での正則化効果が強化されていることが示された。
複数の独立した訓練および推論実行において、本手法は一貫した耐性向上を示し、標準偏差が小さい（例：$ \eta = 0.06 $ 時に±0.162%）ことが確認された。
本手法はアーキテクチャの変更なしに高いノイズ耐性を実現しており、アナログアクセラレータのハードウェア仕様を緩和可能であることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。