QUICK REVIEW

[논문 리뷰] Deep ReLU Networks Have Surprisingly Few Activation Patterns

Boris Hanin, David Rolnick|arXiv (Cornell University)|2019. 06. 03.

Neural Networks and Applications참고 문헌 36인용 수 24

한 줄 요약

이 논문은 훈련 중에도 이론적으로 가능한 것보다 깊이 있는 ReLU 네트워크가 일반적으로 훨씬 적은 활성화 패턴을 가진다는 것을 보여준다. 이는 평균 활성화 영역 수에 대한 날것의 상한선을 증명하며, 이 상한선은 뉴런 총수를 입력 차원에 따라 거듭제곱한 것과 비례한다. 이 상한선는 초기화 단계부터 훈련 전반에 걸쳐 유지되며, 실질적 표현력이 초기화 및 최적화 역학에 의해 제한된다는 것을 시사한다.

ABSTRACT

The success of deep networks has been attributed in part to their expressivity: per parameter, deep networks can approximate a richer class of functions than shallow networks. In ReLU networks, the number of activation patterns is one measure of expressivity; and the maximum number of patterns grows exponentially with the depth. However, recent work has showed that the practical expressivity of deep networks - the functions they can learn rather than express - is often far from the theoretical maximum. In this paper, we show that the average number of activation patterns for ReLU networks at initialization is bounded by the total number of neurons raised to the input dimension. We show empirically that this bound, which is independent of the depth, is tight both at initialization and during training, even on memorization tasks that should maximize the number of activation patterns. Our work suggests that realizing the full expressivity of deep networks may not be possible in practice, at least with current methods.

연구 동기 및 목표

딥 네트워크가 실질적으로 이론적 표현력에 비해 떨어지는 이유를 이해하기 위해.
단지 이론적 최댓값이 아니라, 일반적인 활성화 패턴 수(영역 수)를 정량화하기 위해.
이론적 표현력과 실제 학습된 함수 사이의 격차가 초기화인지 최적화 때문인지 조사하기 위해.
활성화 영역 수가 깊이에 관계없이 독립적으로 유한함을 이론적이고 경험적으로 증명하기 위해.
경사 기반 훈련이 깊이 있는 네트워크의 표현력 잠재력을 충분히 실현하지 못하는 이유를 설명하기 위해.

제안 방법

기하학적 및 확률적 추론을 사용한 ReLU 네트워크 내 활성화 영역에 대한 이론적 분석.
입력 차원과 뉴런 수에 따라 의존하는 단위 부피당 평균 활성화 영역 수에 대한 상한선 유도.
영점 편향 ReLU 네트워크의 척도 동치성(스케일 에퀴바리언스)을 활용하여 활성화 영역 수에 대한 상한선 증명.
초기화 및 훈련 동역학에 대한 경험적 검증, 포함하여 기억 태스크.
영점 편향 네트워크에서 일반 편향 네트워크로의 매핑 도입을 통해 영역 수 비교.
편향 값과 경사 행동이 활성화 패턴 형성에 미치는 영향 분석.

실험 결과

연구 질문

RQ1왜 깊이 있는 ReLU 네트워크가 일반적으로 이론적 최댓값보다 훨씬 적은 활성화 패턴을 보여주는가?
RQ2실제로 깊이에 관계없이 ReLU 네트워크의 활성화 패턴 수가 유한한가?
RQ3경사 기반 훈련이 초기화 단계를 초월해 활성화 패턴 수를 크게 증가시키는가?
RQ4초기화 방법과 편향 분포는 활성화 영역 형성에 어떤 영향을 미치는가?
RQ5관찰된 활성화 패턴 제한은 뉴런 행동에 대한 기하학적 및 확률적 제약으로 설명될 수 있는가?

주요 결과

ReLU 네트워크의 평균 활성화 패턴 수는 뉴런 총수를 입력 차원에 거듭제곱한 것에 의해 제한되며, 이는 깊이와 무관하다.
이 상한선는 네트워크 초기화 단계부터 훈련 전반에 걸쳐 유지되며, 기억 태스크조차도 마찬가지다.
입력 공간 내 입방체와 교차하는 활성화 영역 수는 최대 (T × #neurons)^{n_in} / n_in! 만큼 증가한다. 여기서 T는 상수이다.
영점 편향 ReLU 네트워크는 척도 동치성을 가지며, 그 활성화 영역 수는 O(n_in × #neurons)^{n_in - 1} 으로 유한하다.
경험적 결과는 활성화 영역 수가 이론적 최댓값에 비해 여전히 훨씬 낮다는 것을 확인한다. 이는 최대 기억 태스크에서도 마찬가지다.
많은 활성화 패턴 형성에는 매우 정교한 조율된 경사 또는 큰 출력 범위가 필요하며, 이는 표준 초기화 조건에서는 거의 발생하지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.