QUICK REVIEW

[논문 리뷰] Neural Networks are Convex Regularizers: Exact Polynomial-time Convex Optimization Formulations for Two-layer Networks

Mert Pilancı, Tolga Ergen|arXiv (Cornell University)|2020. 02. 24.

Stochastic Gradient Optimization Techniques인용 수 27

한 줄 요약

이 논문은 가중치 감소를 고려한 두 층의 ReLU 신경망을 훈련시키는 데 있어, 정확하고 다항시간 내의 볼록 최적화 공식을 처음으로 제시한다. 비볼록 문제들이 유한 차원 공간에서 블록 $β$-노름 정규화된 볼록 프로그램과 동치임을 보여주며, 핵심 기여는 강한 이중성 이론을 제안한 것으로, 이는 볼록 해법기와 함께 전역 최적화를 가능하게 하며, ReLU 네트워크가 $β$-노름과 $Ø∞$-노름 정규화를 통해 볼록 정규화제어를 수행한다는 것을 드러낸다.

ABSTRACT

We develop exact representations of training two-layer neural networks with rectified linear units (ReLUs) in terms of a single convex program with number of variables polynomial in the number of training samples and the number of hidden neurons. Our theory utilizes semi-infinite duality and minimum norm regularization. We show that ReLU networks trained with standard weight decay are equivalent to block $\\ell_1$ penalized convex models. Moreover, we show that certain standard convolutional linear networks are equivalent semi-definite programs which can be simplified to $\\ell_1$ regularized linear models in a polynomial sized discrete Fourier feature space.

연구 동기 및 목표

두 층의 ReLU 네트워크를 위한 비볼록 훈련 문제를 정확히 해결하는 유한 차원, 다항시간 볼록 프로그램을 개발하는 것.
비볼록 ReLU 네트워크 훈련 문제와 볼록 준무한 프로그램 사이의 강한 이중성을 확립하여 전역 최적화를 가능하게 하는 것.
ReLU 네트워크와 가중치 감소가 유도하는 암묵적 정규화를 데이터 행렬 $X$에서 유도된 고차원 특징 공간 내에서 블록 $β$-노름과 $Ø∞$-노름 정규화로 특성화하는 것.
이론을 컨볼루션 선형 네트워크로 확장하여, 이산 푸리에 특징 공간 내에서 $β$-정규화 모델과의 동치성을 보이는 것.

제안 방법

준무한 이중성과 최소 노름 정규화를 사용하여 비볼록 ReLU 네트워크 훈련 목표함수의 볼록 이중 공식을 유도하는 것.
원래의 비볼록 최적화 문제를 정규화된 은닉 유닛 가중치와 출력 가중치에 대한 등가의 $β$-벌점 볼록 프로그램으로 대체하는 것.
은닉 뉴런 수 $m$ 이 $m \geq m^*$ 를 만족할 경우, 이중성 갭이 사라짐을 증명함으로써 강한 이중성을 확립하는 것. 여기서 $m^* \leq n$.
제약 조건이 $\mathbb{R}^d$ 내 모든 단위 벡터에 의해 인덱싱되는 볼록 준무한 프로그램으로 구성된 이중 문제를 유도하며, 이를 정 rectified 타원체 집합의 폴라르 세트를 통해 재구성하는 것.
ReLU 네트워크가 가중치 감소와 함께 훈련될 경우, 데이터 행렬 $X$에서 유도된 유한 차원 특징 공간 내에서 블록 $β$-노름 정규화 모델과 수학적으로 동치임을 증명하는 것.
변수 변경과 부호 패턴 샘플링을 통해 컨볼루션 선형 네트워크에 이 프레임워크를 확장하여, 이산 푸리에 특징 공간 내에서 $β$-정규화 모델과의 동치성을 보이는 것.

실험 결과

연구 질문

RQ1두 층의 ReLU 네트워크 훈련 문제는 다항 시간 내에 변수와 제약 조건의 수가 다항적인 볼록 최적화 문제로 정확히 재구성될 수 있는가?
RQ2ReLU 네트워크와 가중치 감소가 유도하는 암묵적 정규화는 무엇이며, 기존의 알려진 볼록 정규화제어와 어떻게 관련이 있는가?
RQ3비볼록 ReLU 네트워크 목표함수와 그 볼록 이중 공식 사이에 강한 이중성이 성립하는가?
RQ4이론은 컨볼루션 네트워크와 같은 구조적 아키텍처로 확장될 수 있으며, 만약 그렇다면 어떤 볼록 재구성 형태가 도출되는가?
RQ5제안된 볼록 공식은 일반화 성능과 목적 함수 값 측면에서 기존의 훈련 히우리스틱 기법(예: SGD)과 비교해 볼 때 어떻게 다를까?

주요 결과

가중치 감소를 고려한 두 층의 ReLU 네트워크 훈련 문제는 $n$개의 변수와 무한 개의 제약 조건을 가진 볼록 준무한 프로그램과 동치이며, 이를 다항 시간 내에 변수와 제약 조건의 수가 다항적인 유한 차원 볼록 프로그램으로 재구성할 수 있다.
은닉 뉴런 수 $m$ 이 $m \geq m^*$ 를 만족할 경우, 비볼록 ReLU 네트워크 목표함수와 그 볼록 이중 간에 강한 이중성이 성립하며, 이는 전역 최적성을 보장한다.
가중치 감소와 함께 훈련된 ReLU 네트워크는 데이터 행렬 $X$에서 유도된 유한 차원 특징 공간 내에서 블록 $β$-노름 정규화 모델과 수학적으로 동치이며, 이 특징 공간은 입력 방향의 가능한 모든 정류된 선형 조합을 나타낸다.
이중 문제는 정류된 타원체 집합의 폴라르 세트 위에서 볼록 함수를 최소화하는 것과 동치임을 입증하였으며, 이는 부호 패턴 샘플링을 통한 효율적 계산을 가능하게 한다.
컨볼루션 선형 네트워크의 경우, 볼록 재구성은 이산 푸리에 특징 공간 내에서 $β$-정규화 선형 모델로 감소하며, 특징 수는 $n$과 $d$에 대해 다항식이다.
실험 결과, 제안된 볼록 프로그램(L1-Convex)은 SGD 및 히우리스틱 변형보다 낮은 목적 함수 값을 기록하고 높은 테스트 정확도를 달성하며, 모든 SGD 실현 결과가 볼록 프로그램과 동일한 해에 수렴함을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.