QUICK REVIEW

[논문 리뷰] Avoiding pathologies in very deep networks

David Duvenaud, Oren Rippel|arXiv (Cornell University)|2014. 02. 24.

Gaussian Processes and Bayesian Inference참고 문헌 28인용 수 84

한 줄 요약

이 논문은 매우 깊은 신경망에서 깊이가 증가함에 따라 표현 능력이 단일 자유도로 붕괴되는 병태적 현상을 규명하며, 각 층 간 정보를 유지하는 입력 연결 아키텍처를 제안한다. 깊은 가우시안 프로세스와 커널 조합을 통해 표준 아키텍처는 표현적 열악성에 시달리지만, 제안된 아키텍처는 무한 깊이 근처에서 풍부하고 다양한 특징 표현을 유지함을 보여준다.

ABSTRACT

Choosing appropriate architectures and regularization strategies for deep networks is crucial to good predictive performance. To shed light on this problem, we analyze the analogous problem of constructing useful priors on compositions of functions. Specifically, we study the deep Gaussian process, a type of infinitely-wide, deep neural network. We show that in standard architectures, the representational capacity of the network tends to capture fewer degrees of freedom as the number of layers increases, retaining only a single degree of freedom in the limit. We propose an alternate network architecture which does not suffer from this pathology. We also examine deep covariance functions, obtained by composing infinitely many feature transforms. Lastly, we characterize the class of models obtained by performing dropout on Gaussian processes.

연구 동기 및 목표

함수에 대한 사전 분포로 모델링함으로써 매우 깊은 신경망의 표현 능력을 분석하기 위해.
표준 깊은 아키텍처에서 층 간 정보가 손실되는 병태적 행동을 규명하기 위해.
각 층에 입력을 연결하여 표현적 열악성의 발생을 방지하는 수정된 네트워크 아키텍처를 제안하기 위해.
딥 커널과 드롭아웃 정규화가 적용된 가우시안 프로세스를 딥 러닝의 대체 사전 편향으로 연구하기 위해.
사전 분석을 통해 가중치 초기화, 정규화, 아키텍처 설계에 대한 이론적 통찰을 제공하기 위해.

제안 방법

각 층의 변환을 GP 사전에서 추출하는 방식으로 깊은 신경망을 깊은 가우시안 프로세스(DGPs)로 모델링하기 위해.
DGPs에서 함수 조합의 극한 행동을 분석하여 표준 아키텍처가 깊이가 증가함에 따라 표현 자유도를 상실함을 보여주기 위해.
각 층이 이전 층의 출력과 함께 원본 입력을 동시에 수신하는 입력 연결 아키텍처를 제안하여 입력 정보를 유지하기 위해.
예를 들어 아크余弦 또는 제곱 지수 커널에서 유도된 고정된 특징 맵을 조합하여 딥 커널의 폐쇄형 표현식을 유도하기 위해.
가우시안 프로세스에 대한 드롭아웃 정규화를 특성화하여 기존 모델과의 등가성을 보이고, 간편한 추론을 가능하게 하기 위해.
머서의 정리를 사용하여 커널 함수를 신경망 내의 암묵적 특징 표현과 연결하기 위해.

실험 결과

연구 질문

RQ1왜 매우 깊은 신경망은 깊이가 증가함에 따라 표현 능력이 떨어지는가?
RQ2깊은 네트워크에서 표현 자유도가 붕괴되는 것을 방지하는 아키텍처 선택은 무엇인가?
RQ3무한 폭과 무한 깊이 근처에서 깊은 가우시안 프로세스는 깊은 신경망의 사전 편향을 어떻게 모델링하는가?
RQ4고정된 특징 맵을 조합하여 형성된 딥 커널의 기능 형태와 표현 능력은 무엇인가?
RQ5가우시안 프로세스에 적용된 드롭아웃은 신경망의 표준 드롭아웃과 어떻게 관련이 있으며, 그 사전 구조는 무엇인가?

주요 결과

독립된 GP 사전을 조합한 표준 깊은 아키텍처는 무한 깊이 근처에서 단일 자유도로 붕괴되어 대부분의 입력 변형에 대해 불변이 된다.
제안된 입력 연결 아키텍처는 각 층에서 원본 입력 신호를 유지함으로써 이 붕괴를 방지하며, 풍부한 표현 능력을 유지한다.
무한히 많은 고정된 특징 맵을 조합하여 형성된 딥 커널은 복잡하고 계층적인 표현을 유지하며, 제곱 지수 및 아크余 cosine 커널과 같은 일반적인 커널에 대해 해석적으로 유도할 수 있다.
가우시안 프로세스에 적용된 드롭아웃은 특정 형태의 가중치 공유와 정규화를 가지는 간편한 사전을 제공하며, 신경망의 표준 드롭아웃과 유사하다.
분석을 통해 많은 딥 러닝 현상—예를 들어 깊이 증가에 따른 성능 저하—는 네트워크의 사전 구조에 담긴 사전 편향에서 기인함을 밝혀냈다.
이러한 발견은 아키텍처 선택, 가중치 초기화, 정규화 전략이 함수에 대한 사전 분석을 명시적으로 고려하여 설계되어야 한다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.