QUICK REVIEW

[논문 리뷰] Training of Deep Neural Networks based on Distance Measures using RMSProp

Thomas Kurbiel, Shahrzad Khaleghian|arXiv (Cornell University)|2017. 08. 06.

Neural Networks and Applications참고 문헌 6인용 수 59

한 줄 요약

이 논문은 Gaussian 활성화를 갖는 거리 기반 신경망을 제시하고, RMSProp이 효과적인 학습을 가능하게 하며 소실/발산 그래디언트를 완화시킨다는 것을, 신중한 초기화와 교대 최적화 스킴의 도움으로 보여준다.

ABSTRACT

The vanishing gradient problem was a major obstacle for the success of deep learning. In recent years it was gradually alleviated through multiple different techniques. However the problem was not really overcome in a fundamental way, since it is inherent to neural networks with activation functions based on dot products. In a series of papers, we are going to analyze alternative neural network structures which are not based on dot products. In this first paper, we revisit neural networks built up of layers based on distance measures and Gaussian activation functions. These kinds of networks were only sparsely used in the past since they are hard to train when using plain stochastic gradient descent methods. We show that by using Root Mean Square Propagation (RMSProp) it is possible to efficiently learn multi-layer neural networks. Furthermore we show that when appropriately initialized these kinds of neural networks suffer much less from the vanishing and exploding gradient problem than traditional neural networks even for deep networks.

연구 동기 및 목표

dot-product를 기반으로 하지 않는 신경망의 탐구를 촉진하여 소실되는 그래디언트를 해결한다.
RMSProp이 거리-측정 네트워크의 효과적인 학습을 가능하게 한다는 것을 입증한다.
적절한 초기화가 그래디언트 문제를 감소시키고 더 깊은 아키텍처를 지지한다는 것을 보여준다.
수렴성을 향상시키고 계산량을 줄이기 위해 교대 최적화를 제안한다.
MNIST 및 함수 근사 실험을 통해 근사 능력을 평가한다.

제안 방법

축에 정렬된 가우시안 함수인 뉴런 활성화를 갖는 가우시안 층의 네트워크를 사용한다.
모든 중심(c)와 반지름(r) 파라미터의 학습률을 적응시키기 위해 RMSProp를 적용한다.
centroids c와 radii r에 대한 역전파 업데이트(Eqs. 10–12)와 그 그래디언트를 도출한다.
작업에 따라 2차 회귀(quadratic) 또는 소프트맥스 교차 엔트로피 비용을 활용한다.
중심과 반지름을 특정 정규 분포(Eqs. 15–17)로 초기화한다.
선택적으로 r과 c를 순차적으로 업데이트하는 교대 최적화 스킴을 사용한다.]

실험 결과

연구 질문

RQ1Gaussian 활성화를 갖는 거리 측정으로 구성된 신경망이 복잡한 함수를 학습할 수 있는가?
RQ2RMSProp이 이러한 거리 기반 네트워크의 학습을 가능하게 하는가?
RQ3초기화와 교대 최적화가 수렴 및 그래디언트 동작에 어떤 영향을 미치는가?

주요 결과

RMSProp은 일반적인 SGD로는 어려움을 겪는 거리-측정 기반 네트워크의 학습을 가능하게 한다.
적절한 초기화로 그래디언트 소실/발산은 전통적인 점곱 네트워크에 비해 덜 심각하다.
MNIST 실험에서 두 개의 은닉층 각각 100개 유닛으로 30 에폭 후 테스트 정확도 98.2%를 달성한다.
네트워크는 임의의 함수(예: 2D 및 회전된 가우시안 밀도 포함)를 작은 RMS 오차로 근사할 수 있다(예: 예시에서 0.006–0.008).
반지름과 중심점의 교대 최적화는 수렴을 크게 개선하고 계산 부담을 줄인다.
이 방법은 소프트맥스 출력 및 교차 엔트로피 손실을 포함한 회귀 및 분류 작업 모두에 적용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.