[논문 리뷰] To understand deep learning we need to understand kernel learning
이 논문은 과적합 및 보간된 커널 방법들이 실제 데이터와 합성 데이터에서 잘 일반화되며, 깊은 네트워크와의 유사점을 드러내는 한편, 기존의 일반화 경계가 이러한 현상을 설명하지 못한다는 점을 보여준다.
Generalization performance of classifiers in deep learning has recently become a subject of intense study. Deep models, typically over-parametrized, tend to fit the training data exactly. Despite this "overfitting", they perform well on test data, a phenomenon not yet fully understood. The first point of our paper is that strong performance of overfitted classifiers is not a unique feature of deep learning. Using six real-world and two synthetic datasets, we establish experimentally that kernel machines trained to have zero classification or near zero regression error perform very well on test data, even when the labels are corrupted with a high level of noise. We proceed to give a lower bound on the norm of zero loss solutions for smooth kernels, showing that they increase nearly exponentially with data size. We point out that this is difficult to reconcile with the existing generalization bounds. Moreover, none of the bounds produce non-trivial results for interpolating solutions. Second, we show experimentally that (non-smooth) Laplacian kernels easily fit random labels, a finding that parallels results for ReLU neural networks. In contrast, fitting noisy data requires many more epochs for smooth Gaussian kernels. Similar performance of overfitted Laplacian and Gaussian classifiers on test, suggests that generalization is tied to the properties of the kernel function rather than the optimization process. Certain key phenomena of deep learning are manifested similarly in kernel methods in the modern "overfitted" regime. The combination of the experimental and theoretical results presented in this paper indicates a need for new theoretical ideas for understanding properties of classical kernel methods. We argue that progress on understanding deep learning will be difficult until more tractable "shallow" kernel methods are better understood.
연구 동기 및 목표
- 다양한 데이터셋에서 과적합/보간 커널 분류기가 잘 일반화될 수 있음을 입증한다.
- 비매끄러운 커널(Laplacian)이 임의의 레이블에 맞출 수 있는 반면, 매끄러운 커널인 Gaussian은 더 어렵게 맞추지만 유사한 테스트 성능을 보임을 보인다.
- 비제로 레이블 노이즈 하에서 보간 해의 RKHS 노름이 데이터 크기에 따라 거의 기하급수적으로 증가함을 보이는 이론적 하한을 제시한다.
- 현재 커널/일반화 경계가 보간 커널 동작을 포착하지 못하며 새로운 이론이 필요하다고 주장한다.
- 최적화 동역학과 무관하게 커널 구조와 일반화 간의 관계를 강조한다.
제안 방법
- Gaussian 및 Laplacian 커널을 사용하여 RKHS에서 무한 차원의 선형 회귀로 커널 머신을 활용한다.
- Representer Theorem을 통해 보간 해를 구성하고 K alpha = y (Eq. 2)에서 alpha를 풀이한다.
- 여러 데이터셋에 대해 과적합(제로 분류 오차)과 보간(제로 회귀 손실) 해를 비교한다.
- 제로 분류 오차를 달성하기 위해 가속 커널 학습 방법인 EigenPro-SGD를 활용한다.
- 비제로 레이블 노이즈에서 t-과적합에 대해 RKHS 노름이 데이터 크기에 거의 지수적으로 증가함을 보이는 이론적 하한을 도출한다.
실험 결과
연구 질문
- RQ1과적합/보간 커널 방법이 실제 데이터와 합성 데이터에서 잘 일반화되는가?
- RQ2매끄러운(Gaussian)과 비매끄러운(Laplacian) 커널이 노이즈가 있는레이블이나 임의의 레이블 맞춤 및 테스트 성능에서 어떻게 비교되는가?
- RQ3기존 일반화 경계가 보간 커널 분류기의 성능을 설명하지 못하는 이유와 이를 더 잘 설명할 수 있는 이론은 무엇인가?
주요 결과
- 보간 커널 분류기는 여섯 개의 실제 데이터셋과 두 개의 합성 데이터셋에서 높은 레이블 노이즈에도 거의 최적에 가까운 테스트 성능을 달성한다.
- 조기 중단에 의한 정규화는 이 보간 분류기의 테스트 성능에 최대한 작은 개선만을 제공한다.
- 비매끄러운 Laplacian 커널은 임의의 레이블에 쉽게 맞출 수 있어 ReLU 네트워크의 관찰을 반영한다; 매끄러운 Gaussian 커널은 노이즈 데이터를 맞추려면 더 많은 에폭이 필요하다.
- 매끄러운 커널의 과적합 해의 RKHS 노름은 데이터 크기에 거의 지수적으로 증가하여 노름에 다항적으로 의존하는 일반적인 경계와 다르게 발산한다.
- 추가된 레이블 노이즈에도 불구하고 보간 커널 분류기의 실험적 테스트 성능은 견고하게 유지되며 Laplacian과 Gaussian 커널 간의 유사성이 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.