Skip to main content
QUICK REVIEW

[논문 리뷰] Cosine Normalization: Using Cosine Similarity Instead of Dot Product in Neural Networks

Chunjie Luo, Jianfeng Zhan|arXiv (Cornell University)|2017. 02. 20.
Neural Networks and Applications참고 문헌 19인용 수 21
한 줄 요약

이 논문은 신경망 내에서 내적을 코사인 유사도 또는 중심화된 코사인 유사도(피어슨 상관계수)로 대체하는 새로운 기법인 코사인 정규화를 제안한다. 이는 뉴런 활성화를 제한하고 분산을 줄이는 데 목적이 있으며, MNIST, 20NEWS, CIFAR-10/100, SVHN에서의 실험을 통해 배치 정규화, 가중치 정규화, 레이어 정규화보다 더 낮은 테스트 오차와 높은 안정성을 확보하였다. 특히 중심화된 코사인(피어슨 상관계수, PCC)이 가장 우수한 성능을 보였다.

ABSTRACT

Traditionally, multi-layer neural networks use dot product between the output vector of previous layer and the incoming weight vector as the input to activation function. The result of dot product is unbounded, thus increases the risk of large variance. Large variance of neuron makes the model sensitive to the change of input distribution, thus results in poor generalization, and aggravates the internal covariate shift which slows down the training. To bound dot product and decrease the variance, we propose to use cosine similarity or centered cosine similarity (Pearson Correlation Coefficient) instead of dot product in neural networks, which we call cosine normalization. We compare cosine normalization with batch, weight and layer normalization in fully-connected neural networks as well as convolutional networks on the data sets of MNIST, 20NEWS GROUP, CIFAR-10/100 and SVHN. Experiments show that cosine normalization achieves better performance than other normalization techniques.

연구 동기 및 목표

  • 딥 신경망에서 뉴런 활성화 분산이 무한대가 되는 문제를 다스려 일반화 성능 저하와 내부 분포 이동을 방지하기 위해.
  • 유사도 기반 정규화를 통해 전활성화 값을 [-1, 1] 범위로 제한하여 입력 분포 변화에 대한 민감도를 낮추기 위해.
  • 배치 통계에 의존하지 않는 정규화 기법을 개발하여 배치 기반 계산 없이도 일관된 훈련 및 추론를 가능하게 하기 위해.
  • 다양한 아키텍처와 데이터셋에서 기존 정규화 방법과 비교하여 코사인 정규화 및 중심화된 코사인 정규화(PCC)의 효과를 평가하기 위해.

제안 방법

  • 표준 내적 $ \mathbf{w} \cdot \mathbf{x} $ 대신 코사인 유사도 $ \cos\theta = \frac{\mathbf{w} \cdot \mathbf{x}}{\|\mathbf{w}\| \|\mathbf{x}\|} $로 교체하여 활성화를 [-1, 1] 범위로 정규화함.
  • 보완적으로 중심화된 코사인 유사도(피어슨 상관계수)를 사용하여 평균 편향을 추가로 제거하고 안정성을 향상시킴.
  • 정방향 전파 과정에서 직접 정규화를 적용하여 배치나 레이어 통계에 의존하지 않으며, 훈련 및 추론 시 일관된 동작을 가능하게 함.
  • 완전 연결 및 컨volutional 네트워크 모두에 구현하여 컨볼루션에서는 수신장 기반으로 정규화를 수행함.
  • 표준 백프로파게이션을 사용하여 훈련하고, 코사인 유사도 연산을 통해 기울기를 계산함.
  • 표준 최적화 알고리즘(예: SGD, Adam)과 호환되며, 미분 가능함을 보장함.

실험 결과

연구 질문

  • RQ1내적을 코사인 유사도로 대체함으로써 딥 신경망에서 활성화 분산을 줄이고 일반화 성능을 향상시킬 수 있는가?
  • RQ2테스트 오차와 훈련 안정성 측면에서 코사인 정규화는 배치, 가중치, 레이어 정규화와 비교해 어떻게 성능을 내는가?
  • RQ3중심화된 코사인 유사도(피어슨 상관계수)는 표준 코사인 정규화보다 성능을 추가로 향상시키는가?
  • RQ4코사인 정규화는 배치 통계에 의존하지 않고도 완전 연결 및 컨볼루션 네트워크에 효과적으로 적용될 수 있는가?
  • RQ5기존 정규화 기법과 비교해 코사인 정규화는 더 빠른 수렴 속도나 더 높은 학습률을 허용하는가?

주요 결과

  • 중심화된 코사인 정규화(Pearson 상관계수)는 모든 데이터셋에서 가장 낮은 테스트 오차를 기록했으며, 각각 MNIST 1.39%, 20NEWS 29.37%, CIFAR-10 6.39%, CIFAR-100 27.49%, SVHN 2.22%를 기록함.
  • 코사인 정규화는 모든 데이터셋에서 두 번째로 뛰어난 성능을 보였으며, 특히 고차원 텍스트 작업인 20NEWS에서 높은 불안정성을 보였던 배치 정규화보다 분산이 현저히 낮음.
  • MNIST에서는 코사인 정규화가 평균 1.40%의 테스트 오차를 기록했고, 배치 정규화(1.45%)와 가중치 정규화(1.65%)보다 우수함.
  • CIFAR-10에서는 코사인 정규화가 7.33%의 테스트 오차를 기록했고, 배치 정규화(8.08%)와 가중치 정규화(8.55%)를 모두 앞서며 분산이 낮음.
  • SVHN에서는 중심화된 코사인 정규화가 2.22%의 테스트 오차를 기록했고, 배치 정규화(2.49%)와 레이어 정규화(2.58%)를 모두 능가하며 변동성이 극히 적음.
  • 손글씨 숫자, 텍스트, 자연 이미지 등 다양한 데이터 유형에서 일관된 성능 향상을 보이며 광범위한 적용 가능성과 강건성을 입증함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.