QUICK REVIEW

[논문 리뷰] Neural networks and rational functions

Matus Telgarsky|arXiv (Cornell University)|2017. 06. 11.

Neural Networks and Applications참고 문헌 13인용 수 22

한 줄 요약

이 논문은 근사 효율성 측면에서 ReLU 신경망과 유리함수 사이의 날것 같은 등가성을 확립한다: 양자 모두 1/ε의 로그에 다항식으로 표현되는 크기의 표현을 사용해 상호 근사가 가능하며, 다항식은 1/ε에 다항식으로 의존하는 차수를 필요로 한다. 핵심 결과는 유리함수는 ReLU 네트워크를 효율적으로 근사할 수 있지만, 네트워크의 깊이에 따라 유리함수의 차수에 지수적 의존성이 생기며, 이는 깊이에 대한 하한 구축을 통해 날것 같은 것으로 증명된다.

ABSTRACT

Neural networks and rational functions efficiently approximate each other. In more detail, it is shown here that for any ReLU network, there exists a rational function of degree $O( ext{polylog}(1/ε))$ which is $ε$-close, and similarly for any rational function there exists a ReLU network of size $O( ext{polylog}(1/ε))$ which is $ε$-close. By contrast, polynomials need degree $Ω( ext{poly}(1/ε))$ to approximate even a single ReLU. When converting a ReLU network to a rational function as above, the hidden constants depend exponentially on the number of layers, which is shown to be tight; in other words, a compositional representation can be beneficial even for rational functions.

연구 동기 및 목표

ReLU 신경망의 표현력을 더 정교하게 기술하기 위해, 그들이 근사하고 근사되는 함수 클래스를 특정화하는 것.
양의 분모를 가진 다항식의 비율인 유리함수들이 ReLU 네트워크에 자연스럽고 효율적인 대체자임을 보여주는 것.
ReLU 네트워크를 유리함수로 근사할 때 깊이에 따라 차수에 지수적 팽창이 발생함을 보여주며, 이는 날것 같은 것으로 증명됨.
조합적 신경망 표현 방식이 조건부로 표준 유리함수 표현 방식보다 유리함을 보임을 강조하는 것.

제안 방법

크기 O(poly(log(1/ε)))인 임의의 ReLU 네트워크를 ε-균일 오차로 근사하는 데에 O(poly(log(1/ε))) 차수의 유리함수를 구성한다.
구간 분할과 탄젠트/선형 근사를 통한 조각별 약선형 근사를 사용하여, 부분구간에서 오차를 제한한다.
깊이에 따라 변하는 하한을 적용하기 위해, 2k층과 각 층당 2개의 노드를 가진 근사가 어려운 ReLU 네트워크를 사용하여, <2^{k-2} 항을 가진 임의의 유리함수는 [0,1]에서 L1 오차 ≥1/64를 가져야 함을 보여준다.
유리함수 활성화를 갖는 신경망인 유리함수 네트워크를 도입하여, ReLU 네트워크가 오직 O(log²(l/ε)) 차수의 유리함수로 근사됨을 보여주는 다리 역할을 한다.
1/x의 볼록성과 이차도수 경계(f'' ≥ 128/27)를 [1/2, 3/4]에서 사용하여, 약선형 근사의 적분 오차 하한을 유도한다.
구간 분할과 길이 임계값(≥1/(8N))을 사용하여 오차가 큰 영역을 식별하고, 중요도가 높은 부분구간에서의 합산을 가능하게 한다.

실험 결과

연구 질문

RQ1ReLU 네트워크는 효율적으로 유리함수로 근사될 수 있는가? 그러한 근사의 크기 복잡도는 무엇인가?
RQ2유리함수는 ReLU 네트워크로도 효율적으로 근사될 수 있는가? 깊이는 이 상호 교환에 어떤 영향을 미치는가?
RQ3왜 유리함수 표현은 ReLU 네트워크에 대해 다항식 근사보다 더 효율적인가? 정량적 격차는 무엇인가?
RQ4ReLU 네트워크의 유리함수 근사에서 깊이에 따른 지수적 의존성은 피할 수 없는가? 그리고 이는 날것 같은 것으로 증명될 수 있는가?
RQ5조합적 신경망 표현 방식은 유리함수를 근사할 때조차도 이점을 제공하는가?

주요 결과

크기 O(poly(log(1/ε)))인 ReLU 네트워크는 m개의 노드를 가진 층이 k층인 경우, 차수 O(ln(k/ε)^k * m^k)인 유리함수로 근사될 수 있다.
ReLU 네트워크의 유리함수 근사에서 깊이에 따른 지수적 의존성은 날것 같다: 하한을 통해, <2^{k-2} 항을 가진 임의의 유리함수는 2k층, 층당 2개의 노드를 가진 ReLU 네트워크를 근사할 때 [0,1]에서 L1 오차 ≥1/64를 가져야 한다.
다항식은 단일 ReLU를 근사하더라도 Ω(poly(1/ε))의 차수를 필요로 하지만, 유리함수는 O(poly(log(1/ε)))의 차수로 이를 달성하여 효율성 면에서 초다항적 격차를 보여준다.
O(k)층과 O(k)개의 노드를 가진 유리함수 네트워크는 각각 O(k) 차수의 유리함수 활성화를 사용하며, 분모와 분자의 총 항 수가 <2^{k-2}인 임의의 유리함수로는 L1 노름에서 1/128 이하의 오차로 근사될 수 없다.
ReLU 네트워크에서 유리함수로의 변환은 유리함수 네트워크를 사용할 경우 더 효율적이다: 각 ReLU를 O(log²(l/ε)) 차수의 단일 유리함수로 대체하면 ε-근사가 달성된다.
논문은 심지어 유리함수의 경우에도, 조합적 깊이를 가진 신경망 표현 방식이 표준 유리함수 표현 방식보다 상당한 압축 이점을 제공함을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.