QUICK REVIEW

[논문 리뷰] Optimal Lottery Tickets via SubsetSum: Logarithmic Over-Parameterization is Sufficient

Ankit Pensia, Shashank Rajput|arXiv (Cornell University)|2020. 06. 14.

Artificial Intelligence in Games참고 문헌 37인용 수 28

한 줄 요약

이 논문은 깊이 $ l $와 폭 $ d $를 가진 임의의 완전 연결 ReLU 네트워크를 $ \epsilon $-근사하기 위해, 목표 네트워크보다 로그 크기만 넓은 랜덤 네트워크가도 충분함을 입증한다. 특히, $ O(\log(dl)) $의 인자로 과다 파ram터화된 네트워크는 임의의 목표 네트워크를 근사할 수 있으며, 이는 이론적 과다 파ram터화 요구사항과 실험적 관찰 사이의 격차를 해결한다. 핵심 통찰은 네트워크 프루닝을 랜덤 부분합 문제(random SubsetSum problem)와 연결함으로써, 상수 깊이 네트워크에 대해 로그 과다 파aram터화가 충분하고 거의 최적임을 증명한다.

ABSTRACT

The strong {\it lottery ticket hypothesis} (LTH) postulates that one can approximate any target neural network by only pruning the weights of a sufficiently over-parameterized random network. A recent work by Malach et al. \cite{MalachEtAl20} establishes the first theoretical analysis for the strong LTH: one can provably approximate a neural network of width $d$ and depth $l$, by pruning a random one that is a factor $O(d^4l^2)$ wider and twice as deep. This polynomial over-parameterization requirement is at odds with recent experimental research that achieves good approximation with networks that are a small factor wider than the target. In this work, we close the gap and offer an exponential improvement to the over-parameterization requirement for the existence of lottery tickets. We show that any target network of width $d$ and depth $l$ can be approximated by pruning a random network that is a factor $O(\log(dl))$ wider and twice as deep. Our analysis heavily relies on connecting pruning random ReLU networks to random instances of the extsc{SubsetSum} problem. We then show that this logarithmic over-parameterization is essentially optimal for constant depth networks. Finally, we verify several of our theoretical insights with experiments.

연구 동기 및 목표

강력한 러닝 티켓 가설에서 이론적 과다 파aram터화 요구사항과 실험적 관찰 사이의 격차를 메우기 위해.
랜덤으로 초기화된 네트워크에서 러닝 티켓이 존재함을 보장하기 위해 필요한 최소 과다 파aram터화 인수를 규명하기 위해.
임의의 목표 ReLU 네트워크를 프루닝을 통해 근사하기 위해 로그 과다 파aram터화가 충분하고 거의 최적임을 보여주기 위해.
랜덤 ReLU 네트워크의 프루닝 문제를 이론적 분석을 위해 랜덤 부분합 문제와 연결하기 위해.
실험적으로는 상수 인수 과다 파aram터화로도 높은 성능을 보이는 결과와 이론적 기반을 일치시키기 위해.

제안 방법

저자들은 ReLU 네트워크의 프루닝을 각 가중치가 합에 해당하는 수의 집합으로 모델링하는 랜덤 부분합 문제로 간주한다.
Lueker(1998)의 랜덤 부분합 문제에 대한 결과를 활용하여, $ O(d \log(dl/\epsilon)) $개의 랜덤 계수로도 고정된 확률로 목표 선형 함수를 $ \epsilon $-오차 이내로 근사할 수 있음을 보였다.
네트워크를 선형 변환과 ReLU 비선형성으로 분해함으로써 분석을 선형 함수에서 깊은 ReLU 네트워크로 확장하였다.
폭이 목표 네트워크의 $ O(\log(dl)) $ 배이고 깊이가 $ 2l $인 랜덤 네트워크는 목표 네트워크 출력을 $ \epsilon $-근사하는 하위 네트워크를 포함함을 증명하였다.
모든 층에서 고확률 성공을 보장하기 위해 농도 불등식과 부분합의 확률적 경계를 활용한 증명 기반을 구축하였다.
하한을 구성함으로써 상수 깊이 네트워크에서 로그 인자가 점 渐진적으로 최적임을 추가로 보였다.

실험 결과

연구 질문

RQ1강력한 러닝 티켓 가설의 과다 파aram터화 요구사항을 다항식에서 로그로 줄일 수 있는가?
RQ2신경망 프루닝과 랜덤 부분합 문제 사이에 이론적 연결이 존재하는가?
RQ3로그 과다 파aram터화가 임의의 목표 ReLU 네트워크에 대해 러닝 티켓 존재를 보장하기에 충분한가?
RQ4상수 깊이 네트워크에서 로그 과다 파aram터화 인자는 최적인가?
RQ5이론적 분석은 약간 과다 파aram터화된 네트워크에서 높은 정확도를 보이는 실험적 관찰과 어떻게 일치하는가?

주요 결과

논문은 목표 네트워크보다 랜덤 네트워크가 뿐만 아니라 $ O(\log(dl)) $ 배 넓기만 해도, 폭 $ d $와 깊이 $ l $를 가진 임의의 완전 연결 ReLU 네트워크를 $ \epsilon $-근사할 수 있음을 증명하였다.
이 로그 과다 파aram터화가 상수 깊이 네트워크에 대해 거의 최적임이 입증되었으며, 하한이 상한과 상수 인수 범위 내에서 일치함을 보였다.
분석은 프루닝된 ReLU 네트워크와 랜덤 부분합 문제 사이에 직접적인 이론적 연결을 확립하였으며, Lueker(1998)의 결과를 활용하였다.
저자들은 Malach 등이 이전에 제시한 $ O(d^4 l^2) $의 기존 상한보다 기하급수적으로 작은 과다 파aram터화가 필요함을 입증함으로써 오랜 기간 동안 존재하던 격차를 해결하였다.
실험 결과는 프루닝 알고리즘의 근사 능력이 네트워크 구조에 크게 의존하며, 이미 희소한 설정에서 ReLU 활성화 함수가 성능을 떨어뜨린다는 것을 확인하였다.
이 작업은 기존의 프루닝 알고리즘이 부분합 문제에서 유래한 이론적 통찰을 활용함으로써 더 효율적이고 증명 가능한 프루닝 전략을 도입할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.