QUICK REVIEW

[論文レビュー] Cosine Normalization: Using Cosine Similarity Instead of Dot Product in Neural Networks

Chunjie Luo, Jianfeng Zhan|arXiv (Cornell University)|Feb 20, 2017

Neural Networks and Applications参考文献 19被引用数 21

ひとこと要約

この論文は、ニューラルネットワークにおけるドット積をコサイン類似度または中心化コサイン類似度（ピアソン積動標本相関係数）に置き換える新しい技術、コサイン正規化を提案する。これにより、ニューロンの活性化を束縛し、分散を低減する。MNIST、20NEWS、CIFAR-10/100、SVHNの複数のデータセットで実験した結果、バッチ正規化、重み正規化、レイヤー正規化よりも低いテスト誤差と高い安定性を達成し、中心化コサイン（PCC）が最も優れた性能を示した。

ABSTRACT

Traditionally, multi-layer neural networks use dot product between the output vector of previous layer and the incoming weight vector as the input to activation function. The result of dot product is unbounded, thus increases the risk of large variance. Large variance of neuron makes the model sensitive to the change of input distribution, thus results in poor generalization, and aggravates the internal covariate shift which slows down the training. To bound dot product and decrease the variance, we propose to use cosine similarity or centered cosine similarity (Pearson Correlation Coefficient) instead of dot product in neural networks, which we call cosine normalization. We compare cosine normalization with batch, weight and layer normalization in fully-connected neural networks as well as convolutional networks on the data sets of MNIST, 20NEWS GROUP, CIFAR-10/100 and SVHN. Experiments show that cosine normalization achieves better performance than other normalization techniques.

研究の動機と目的

深層ニューラルネットワークにおける無限大に発散するニューロン活性化の分散の問題に対処し、一般化性能の低下と内部分布シフトを改善すること。
類似度に基づく正規化を用いて、入力分布のずれに対して感受性を低くし、事前活性化値を[-1, 1]の範囲に束縛すること。
バッチ統計に依存しない正規化技術を開発し、バッチ依存の計算を回避することで、学習時と推論時で一貫した挙動を実現すること。
多様なアーキテクチャとデータセットにおいて、コサイン正規化および中心化コサイン正規化（PCC）の有効性を、既存の正規化手法と比較して評価すること。

提案手法

標準的なドット積 $ \mathbf{w} \cdot \mathbf{x} $ を、コサイン類似度 $ \cos\theta = \frac{\mathbf{w} \cdot \mathbf{x}}{\|\mathbf{w}\| \|\mathbf{x}\|} $ に置き換え、活性化を[-1, 1]の範囲に正規化する。
代替として中心化コサイン類似度（ピアソン積動標本相関係数）を用い、平均バイアスをさらに除去し、安定性を向上させる。
正規化をフォワードパスの直接的に行い、バッチまたはレイヤー統計に依存しないため、学習時と推論時で一貫した挙動を実現する。
全結合層および畳み込み層の両方のネットワークに実装し、畳み込みでは受容 field ごとに正規化を適用する。
標準的なバックプロパゲーションを用いて学習し、コサイン類似度演算を経由して勾配を計算する。
標準的な最適化アルゴリズム（SGD や Adam など）と互換性があり、微分可能であることを保証する。

実験結果

リサーチクエスチョン

RQ1ドット積をコサイン類似度に置き換えることで、深層ニューラルネットワークにおける活性化分散を低減し、モデルの一般化性能を向上させることができるか？
RQ2コサイン正規化は、バッチ正規化、重み正規化、レイヤー正規化と比較して、テスト誤差と学習安定性の面で優れているか？
RQ3中心化コサイン類似度（ピアソン積動標本相関係数）を用いることで、標準的なコサイン正規化よりもさらに性能が向上するか？
RQ4コサイン正規化は、バッチ統計に依存せずに、全結合層および畳み込み層の両方に対して効果的に適用可能か？
RQ5既存の正規化手法と比較して、コサイン正規化は収束が速いか、より高い学習率を許容するか？

主な発見

中心化コサイン正規化（ピアソン積動標本相関係数）は、全データセットで最も低いテスト誤差を達成した：MNISTで1.39%、20NEWSで29.37%、CIFAR-10で6.39%、CIFAR-100で27.49%、SVHNで2.22%。
コサイン正規化は全データセットで2番目の性能を示し、バッチ正規化に比べて顕著に低い分散を示した。特に20NEWSのような高次元のテキストタスクでは、バッチ正規化が著しく不安定であった。
MNISTでは、コサイン正規化が1.40%（平均）のテスト誤差を達成したのに対し、バッチ正規化は1.45%、重み正規化は1.65%であった。
CIFAR-10では、コサイン正規化が7.33%のテスト誤差を達成し、バッチ正規化（8.08%）と重み正規化（8.55%）を上回り、分散も低かった。
SVHNでは、中心化コサイン正規化が2.22%のテスト誤差を達成し、バッチ正規化（2.49%）とレイヤー正規化（2.58%）を上回り、分散は最小に抑えられた。
本手法は、手書き数字、テキスト、自然画像という多様なデータタイプにおいて一貫した性能向上を示し、広範な適用可能性と頑健性を実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。