QUICK REVIEW

[논문 리뷰] Mixing Complexity and its Applications to Neural Networks

Michal Moshkovitz, Naftali Tishby|arXiv (Cornell University)|2017. 03. 02.

Machine Learning and Algorithms참고 문헌 26인용 수 8

한 줄 요약

이 논문은 메모리 제약 조건 하에서 가설 클래스의 학습 가능성 분석을 위해 혼합 복잡도(mixing complexity)라는 새로운 측도를 도입한다. 특히 신경망에서의 적용을 중심으로, 높은 혼합 복잡도(MC(H) = Ω(√|H|))를 가진 클래스는 유한 메모리 알고리즘으로는 학습될 수 없음을 증명하며, 대부분의 클래스가 신경망에 의해 학습되지 못하는 이유를 설명한다. 이 프레임워크는 또한 자연스럽고 구조화된 클래스—예를 들어 r-충분한 분할을 가진 클래스—는 낮은 혼합 복잡도를 가지며 따라서 학습 가능하다는 점을 보여주며, 이론적 한계와 실무에서의 경험적 성공을 조화시킨다.

ABSTRACT

A line of recent works showed that for a large class of learning problems, any learning algorithm requires either super-linear memory size or a super-polynomial number of samples [Raz, 2016; Kol et al., 2017; Raz, 2017; Moshkovitz and Moshkovitz, 2018; Beame et al., 2018; Garg et al., 2018]. For example, any algorithm for learning parities of size n requires either a memory of size Omega(n^{2}) or an exponential number of samples [Raz, 2016]. All these works modeled the learner as a one-pass branching program, allowing only one pass over the stream of samples. In this work, we prove the first memory-samples lower bounds (with a super-linear lower bound on the memory size and super-polynomial lower bound on the number of samples) when the learner is allowed two passes over the stream of samples. For example, we prove that any two-pass algorithm for learning parities of size n requires either a memory of size Omega(n^{1.5}) or at least 2^{Omega(sqrt{n})} samples. More generally, a matrix M: A x X - > {-1,1} corresponds to the following learning problem: An unknown element x in X is chosen uniformly at random. A learner tries to learn x from a stream of samples, (a_1, b_1), (a_2, b_2) ..., where for every i, a_i in A is chosen uniformly at random and b_i = M(a_i,x). Assume that k,l, r are such that any submatrix of M of at least 2^{-k} * |A| rows and at least 2^{-l} * |X| columns, has a bias of at most 2^{-r}. We show that any two-pass learning algorithm for the learning problem corresponding to M requires either a memory of size at least Omega (k * min{k,sqrt{l}}), or at least 2^{Omega(min{k,sqrt{l},r})} samples.

연구 동기 및 목표

대부분의 가설 클래스가 이론적으로는 학습이 불가능한 데 반해 신경망이 실무에서 성공을 거두는 데서 발생하는 격차를 해소하기 위해.
실제 데이터 클래스의 '구조' 개념을 r-충분한 분할을 통해 수학적으로 형식화하기 위해.
혼합 복잡도가 신경망에서 일반화를 설명하는 데 VC-차원보다 더 나은 복잡도 측도가 될 수 있음을 보여주기 위해.
혼합 복잡도가 소량의 레이블 변화에 대해 안정적인지 보여주기 위해.
유한 메모리 조건 하에서의 이론적 한계와 신경망의 경험적 성공을 조율하기 위해.

제안 방법

가설 클래스 H가 랜덤 클래스에 얼마나 가까운지를 모델링하는 데 기반해, 이중 그래프 표현에서의 간선 분포를 바탕으로 혼합 복잡도(MC(H))를 측정하는 방법을 도입한다.
모든 정점 쌍 간에 간선가 거의 균일하게 분포하는 클래스를 모델링하기 위해 d-혼합 성질을 사용한다.
간선 집중도 한계(Claim 10)를 포함한 그래프 이론적 도구를 적용하여, 예시들 사이에서 가설의 분포를 분석한다.
d-혼합 클래스는 VC-차원이 Ω(log |H|)임을 증명함으로써, 메모리 제약 조건이 없을 경우 학습하기 가장 어려운 클래스임을 확인한다.
레이블 변화에 대한 혼합 복잡도의 안정성 증명: b개 이하의 레이블을 변경하면 혼합 복잡도는 최대 √b만큼 증가한다.
쉘 분해와 가설 분할 기법을 사용하여, 혼합 클래스는 큰 셸 크기를 가지며, 이는 그들의 어려움을 더욱 강화함을 보여준다.

실험 결과

연구 질문

RQ1유한 메모리 조건 하에서 이론적으로는 학습이 불가능한 데도 불구하고 신경망이 실무에서 성공하는 이유는 무엇인가?
RQ2실세계 데이터 클래스의 어떤 구조적 특성이 고도의 복잡성에도 불구하고 신경망이 학습 가능하게 만드는가?
RQ3혼합 복잡도가 신경망에서 일반화를 설명하는 데 VC-차원보다 더 나은 복잡도 측도가 될 수 있는가?
RQ4레이블 또는 데이터에 소량의 변화가 가해질 경우 혼합 복잡도는 어떻게 변화하는가?
RQ5r-충분한 분할을 가진 가설 클래스(즉, 구조화된 클래스)는 본질적으로 더 복잡도가 낮고, 따라서 메모리 제약 조건 하에서도 학습 가능한가?

주요 결과

혼합 복잡도 MC(H) = Ω(√|H|)를 가진 클래스는 유한 메모리 알고리즘으로는 학습될 수 없으며, 이는 대부분의 가설 클래스가 메모리 제약 조건 하에서는 학습이 불가능하다는 것을 의미한다.
높은 혼합 복잡도를 가진 가설 클래스는 VC-차원이 Ω(log |H|)이며, 이는 가능한 최대값이므로, 메모리 제약 조건이 없을 경우 학습하기 가장 어려운 클래스임을 확인한다.
자연스럽고 구조화된 클래스—r-충분한 분할을 통해 수학적으로 정의된 클래스—는 낮은 혼합 복잡도를 가지며 따라서 유한 메모리 조건 하에서도 학습 가능할 수 있다.
혼합 복잡도는 안정적이다: 최대 b개의 예시에 대한 레이블을 변경하면 혼합 복잡도는 최대 √b만큼 증가한다.
혼합 복잡도는 자연 이미지 데이터와 랜덤 레이블을 구분할 수 있으며, Zhang 등(2017)에서 관측된 일반화 갭을 설명한다.
이 프레임워크는 실제 세계 데이터 클래스가 혼합되지 않음을 바탕으로 한 구조 때문에, 신경망의 경험적 성공과 이론적 불가능성 간의 모순을 해소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.