QUICK REVIEW

[논문 리뷰] Learning with invariances in random features and kernel models

Mei Song, Theodor Misiakiewicz|arXiv (Cornell University)|2021. 02. 25.

Stochastic Gradient Optimization Techniques참고 문헌 32인용 수 24

한 줄 요약

이 논문은 기계 학습 모델에서의 불변성의 통계적 이점을 정량화하기 위해 불변 랜덤 특징과 불변 커널 방법을 도입한다. 군의 비퇴화도 $\alpha \leq 1$ 인 경우, 동일한 테스트 오차를 달성하기 위해 표본 크기와 은닉 유닛 수를 $d^{\alpha}$ 배 줄일 수 있음을 보여주며, 이는 구와 초입방체 위에서 이동 불변 목표 함수를 갖는 고차원 설정에서 상당한 효율성 향상을 보여준다.

ABSTRACT

A number of machine learning tasks entail a high degree of invariance: the data distribution does not change if we act on the data with a certain group of transformations. For instance, labels of images are invariant under translations of the images. Certain neural network architectures -- for instance, convolutional networks -- are believed to owe their success to the fact that they exploit such invariance properties. With the objective of quantifying the gain achieved by invariant architectures, we introduce two classes of models: invariant random features and invariant kernel methods. The latter includes, as a special case, the neural tangent kernel for convolutional networks with global average pooling. We consider uniform covariates distributions on the sphere and hypercube and a general invariant target function. We characterize the test error of invariant methods in a high-dimensional regime in which the sample size and number of hidden units scale as polynomials in the dimension, for a class of groups that we call `degeneracy $α$', with $α\leq 1$. We show that exploiting invariance in the architecture saves a $d^α$ factor ($d$ stands for the dimension) in sample size and number of hidden units to achieve the same test error as for unstructured architectures. Finally, we show that output symmetrization of an unstructured kernel estimator does not give a significant statistical improvement; on the other hand, data augmentation with an unstructured kernel estimator is equivalent to an invariant kernel estimator and enjoys the same improvement in statistical efficiency.

연구 동기 및 목표

고차원 학습 문제에서 구조적 불변성(예: 컨volutional 네트워크)의 통계적 이점을 정량화하기 위해.
이동과 같은 군 대칭성을 존중하는 불변 랜덤 특징 및 커널 모델을 체계화하고 분석하기 위해.
표본 크기와 은닉 유닛 수가 차원에 다항식적으로 증가하는 고차원 스케일링 조건 하에서 불변 모델의 테스트 오차를 특성화하기 위해.
비정형 대안(예: 출력 대칭화 및 데이터 증강)과 불변 방법을 비교하기 위해.
비정형 커널을 사용한 데이터 증강이 불변 커널 추정과 통계적으로 동일하며 동일한 효율성 향상을 얻는다는 것을 입증하기 위해.

제안 방법

저자들은 군 작용 $\mathcal{G}_d \subset \mathrm{O}(d)$ 에 따라 특징과 커널을 대칭화함으로써 불변 랜덤 특징 및 커널 모델을 정의하며, 순환 이동과 같은 변환에 대해 불변성을 확보한다.
분석은 고차원 구 $\mathbb{S}^{d-1}$ 과 균일 측도를 갖는 초입방체 $\{-1,1\}^d$ 에서 이루어지며, 불변 목표 함수에 집중한다.
불변 함수와 커널을 표현하기 위해 구 위의 구형다항식 분해(Gegenbauer)와 초입방체 위의 초입방체 Gegenbauer 분해를 사용한다.
핵심 이론적 도구로는 측도 집중과 불변 함수 공간 내 고유값 감쇠에 대한 초수렴성 부등식(Hypercontractivity inequalities)을 사용한다.
불변 커널의 고유값 감쇠 속도를 제어하는 군 전용 매개변수인 비퇴화도 $\alpha$ 를 사용하여 일반화 오차의 경계를 유도한다.
불변 모델이 비정형 모델보다 $d^\alpha$ 배 적은 표본 수와 파rameter로 동일한 테스트 오차를 달성할 수 있음을 입증한다.

실험 결과

연구 질문

RQ1랜덤 특징 및 커널 모델에서 불변성을 강제함으로써 얼마나 많은 표본 크기와 모델 복잡도 감소를 달성할 수 있는가?
RQ2특히 비퇴화도 $\alpha$ 를 통해 군의 구조가 불변 모델의 통계적 효율성 향상에 미치는 역할은 무엇인가?
RQ3비정형 커널 추정기의 출력 대칭화가 표준 커널 방법보다 일반화 성능을 향상시키는가?
RQ4비정형 커널을 사용한 데이터 증강이 통계 성능 측면에서 불변 커널 추정과 동일한가?
RQ5구와 초입방체 위에서 불변 커널의 스펙트럼 특성이 고차원에서 일반화 오차에 미치는 영향은 무엇인가?

주요 결과

비퇴화도 $\alpha \leq 1$ 인 군에 대해, 불변 모델은 동일한 테스트 오차를 달성하기 위해 비정형 모델보다 $d^\alpha$ 배 적은 표본 수와 은닉 유닛을 필요로 한다.
비정형 커널 추정기와 함께 데이터 증강을 수행하는 것은 불변 커널 추정을 사용하는 것과 통계적으로 동일하며 동일한 $d^\alpha$ 효율성 향상을 얻는다.
비정형 커널 추정기의 출력 대칭화는 표준 커널 방법보다 통계적 성능 향상이 크지 않다.
전역 평균 풀링을 갖는 컨volutional 네트워크의 신경 기저 커널(Neural Tangent Kernel)은 제안된 불변 커널 방법의 특수한 경우이다.
초수렴성과 Gegenbauer 다항식 분해를 사용하여 일반화 오차의 이론적 경계를 도출하였으며, 이는 불변 모델이 고차원 스케일링 조건 하에서 더 빠르게 수렴함을 보여준다.
비퇴화도 $\alpha$ 는 불변 커널 내 고유값 감쇠 속도를 특성화하며, 이는 표본 복잡도 감소의 크기를 직접 결정한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.