QUICK REVIEW

[논문 리뷰] The phase diagram of approximation rates for deep neural networks

Dmitry Yarotsky, Anton Zhevnerchuk|arXiv (Cornell University)|2019. 06. 22.

Machine Learning in Materials Science참고 문헌 25인용 수 30

한 줄 요약

이 논문은 딥 뉴럴 네트워크의 근사 속도에 대한 상 다이어그램을 수립하며, ReLU 네트워크가 $ r $-스무쓰 함수에 대해 $ r/d $ 까지 최적의 속도를 달성함을 증명한다. 또한 조각별 다항식 활성화 함수를 사용하는 네트워크도 동일한 상 다이어그램을 공유한다. 더 나아가 주기적 활성화 함수를 갖는 딥 푸리에 네트워크가 고정밀 가중치 인코딩을 통해 효율적인 룩업 연산을 가능하게 하여 거의 지수 수준의 근사 속도를 달성함을 보여준다.

ABSTRACT

We explore the phase diagram of approximation rates for deep neural networks and prove several new theoretical results. In particular, we generalize the existing result on the existence of deep discontinuous phase in ReLU networks to functional classes of arbitrary positive smoothness, and identify the boundary between the feasible and infeasible rates. Moreover, we show that all networks with a piecewise polynomial activation function have the same phase diagram. Next, we demonstrate that standard fully-connected architectures with a fixed width independent of smoothness can adapt to smoothness and achieve almost optimal rates. Finally, we consider deep networks with periodic activations ("deep Fourier expansion") and prove that they have very fast, nearly exponential approximation rates, thanks to the emerging capability of the network to implement efficient lookup operations.

연구 동기 및 목표

네트워크 복잡도, 아키텍처, 활성화 함수, 근사 정확도 간의 상호작용의 이론적 한계를 체계적으로 분석하기 위해.
다양한 함수 클래스에 걸쳐 딥 네트워크의 근사 속도에 대한 이론적 경계를 규명하기 위해.
다양한 네트워크 조건 하에서 실현 가능하고 비실현 가능한 근사 속도의 상 다이어그램을 규명하기 위해.
고정 너비를 가진 완전히 연결된 네트워크가 스무쓰함에 적응하여 거의 최적의 속도를 달성할 수 있음을 보여주기 위해.
주기적 활성화 함수를 갖는 딥 푸리에 네트워크가 거의 지수 수준의 수렴 속도를 달성할 수 있음을 보여주기 위해.

제안 방법

이전의 ReLU 네트워크에서의 딥 불연속 상에 대한 결과를 임의의 양의 스무쓰함 $ r $ 으로 일반화하기 위해, 고정밀 근사에 적합한 가중치의 이진 표현을 사용한다.
패치당 하나의 가중치에 함수 값을 인코딩하는 네트워크 아키텍처를 구성하여 고속도 근사가 가능하도록 한다.
경계 간섭을 방지하기 위해, 근사된 기수 함수 $ \widetilde{\theta}_a(x) = \min(1, \max(-1, a\sigma(x))) $ 를 기반으로 한 단위 분할을 사용하여 상이한 입방 패치를 고립시킨다.
각 연산당 복잡도 $ O(\log(1/\epsilon)) $ 를 가지는 ReLU 하위네트워크를 사용하여 곱셈 및 덧셈 연산을 구현하고, 필터링된 근사를 조합한다.
가중치에 인코딩된 총 정보의 척도가 $ \epsilon^{-d/r} \log(1/\epsilon) $ 로 증가함을 증명하여, 딥 푸리에 네트워크에서 거의 지수 수준의 속도를 가능하게 한다.
활성화 함수의 역할을 분석하기 위해, 모든 조각별 다항식 활성화 함수를 갖는 네트워크가 동일한 근사 속도 상 다이어그램을 공유함을 보여준다.

실험 결과

연구 질문

RQ1딥 뉴럴 네트워크의 근사 속도에 대한 이론적 한계는 스무쓰함 $ r $, 깊이, 너비, 활성화 함수 유형에 따라 어떻게 달라지나?
RQ2고정 너비를 가진 완전히 연결된 네트워크가 다양한 함수의 스무쓰함에 적응하여 거의 최적의 속도를 달성할 수 있는가?
RQ3활성화 함수의 구조, 특히 조각별 다항식 대비 주기적 함수가 근사 상 다이어그램을 결정하는 데 어떤 역할을 하는가?
RQ4고정밀 가중치 표현 방식은 어떻게 딥 푸리에 네트워크에서 거의 지수 수준의 근사 속도를 가능하게 하는가?
RQ5연속성과 VC 차원 제약 조건 하에서 실현 가능하고 비실현 가능한 근사 속도의 경계는 무엇인가?

주요 결과

ReLU 네트워크의 근사 속도 상 다이어그램이 임의의 양의 스무쓰함 $ r $ 으로 일반화되었으며, 연속적인 가중치 할당 조건 하에서 최적의 속도는 $ p = r/d $ 로 제한된다.
모든 딥 네트워크가 조각별 다항식 활성화 함수를 사용할 경우, ReLU를 포함하여 동일한 상 다이어그램을 공유하며, 연속성 가정 없이도 최대 실현 가능한 속도는 $ p = 2r/d $ 이다.
스무쓰함에 따라 조정 가능한 고정 너비의 표준 완전히 연결된 네트워크는 $ r $ 에 적응하여 근사 속도를 $ r/d $ 에 임의로 가까이 만들 수 있으며, 이는 선형 너비 경계와 일치한다.
주기적 활성화 함수를 갖는 딥 네트워크는 (
네트워크 가중치에 인코딩된 총 정보의 척도는 $ \epsilon^{-d/r} \log(1/\epsilon) $ 로 증가하며, 이는 딥 푸리에 네트워크 아키텍처에서 거의 지수 수준의 근사 속도를 가능하게 한다.
패치 기반 근사 구조는 필터링 함수 $ \Psi_0, \Psi_1 $ 를 사용한 단위 분할을 통해 안정화되며, 이는 서로 겹치지 않는 지지역과 경계 오차를 방지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.