Skip to main content
QUICK REVIEW

[논문 리뷰] Neural Networks are Convex Regularizers: Exact Polynomial-time Convex Optimization Formulations for Two-layer Networks

Mert Pilancı, Tolga Ergen|arXiv (Cornell University)|2020. 02. 24.
Stochastic Gradient Optimization Techniques인용 수 27
한 줄 요약

이 논문은 가중치 감소를 고려한 두 층의 ReLU 신경망을 훈련시키는 데 있어, 정확하고 다항시간 내의 볼록 최적화 공식을 처음으로 제시한다. 비볼록 문제들이 유한 차원 공간에서 블록 $β$-노름 정규화된 볼록 프로그램과 동치임을 보여주며, 핵심 기여는 강한 이중성 이론을 제안한 것으로, 이는 볼록 해법기와 함께 전역 최적화를 가능하게 하며, ReLU 네트워크가 $β$-노름과 $Ø∞$-노름 정규화를 통해 볼록 정규화제어를 수행한다는 것을 드러낸다.

ABSTRACT

We develop exact representations of training two-layer neural networks with rectified linear units (ReLUs) in terms of a single convex program with number of variables polynomial in the number of training samples and the number of hidden neurons. Our theory utilizes semi-infinite duality and minimum norm regularization. We show that ReLU networks trained with standard weight decay are equivalent to block $\\ell_1$ penalized convex models. Moreover, we show that certain standard convolutional linear networks are equivalent semi-definite programs which can be simplified to $\\ell_1$ regularized linear models in a polynomial sized discrete Fourier feature space.

연구 동기 및 목표

  • 두 층의 ReLU 네트워크를 위한 비볼록 훈련 문제를 정확히 해결하는 유한 차원, 다항시간 볼록 프로그램을 개발하는 것.
  • 비볼록 ReLU 네트워크 훈련 문제와 볼록 준무한 프로그램 사이의 강한 이중성을 확립하여 전역 최적화를 가능하게 하는 것.
  • ReLU 네트워크와 가중치 감소가 유도하는 암묵적 정규화를 데이터 행렬 $X$에서 유도된 고차원 특징 공간 내에서 블록 $β$-노름과 $Ø∞$-노름 정규화로 특성화하는 것.
  • 이론을 컨볼루션 선형 네트워크로 확장하여, 이산 푸리에 특징 공간 내에서 $β$-정규화 모델과의 동치성을 보이는 것.

제안 방법

  • 준무한 이중성과 최소 노름 정규화를 사용하여 비볼록 ReLU 네트워크 훈련 목표함수의 볼록 이중 공식을 유도하는 것.
  • 원래의 비볼록 최적화 문제를 정규화된 은닉 유닛 가중치와 출력 가중치에 대한 등가의 $β$-벌점 볼록 프로그램으로 대체하는 것.
  • 은닉 뉴런 수 $m$ 이 $m \geq m^*$ 를 만족할 경우, 이중성 갭이 사라짐을 증명함으로써 강한 이중성을 확립하는 것. 여기서 $m^* \leq n$.
  • 제약 조건이 $\mathbb{R}^d$ 내 모든 단위 벡터에 의해 인덱싱되는 볼록 준무한 프로그램으로 구성된 이중 문제를 유도하며, 이를 정 rectified 타원체 집합의 폴라르 세트를 통해 재구성하는 것.
  • ReLU 네트워크가 가중치 감소와 함께 훈련될 경우, 데이터 행렬 $X$에서 유도된 유한 차원 특징 공간 내에서 블록 $β$-노름 정규화 모델과 수학적으로 동치임을 증명하는 것.
  • 변수 변경과 부호 패턴 샘플링을 통해 컨볼루션 선형 네트워크에 이 프레임워크를 확장하여, 이산 푸리에 특징 공간 내에서 $β$-정규화 모델과의 동치성을 보이는 것.

실험 결과

연구 질문

  • RQ1두 층의 ReLU 네트워크 훈련 문제는 다항 시간 내에 변수와 제약 조건의 수가 다항적인 볼록 최적화 문제로 정확히 재구성될 수 있는가?
  • RQ2ReLU 네트워크와 가중치 감소가 유도하는 암묵적 정규화는 무엇이며, 기존의 알려진 볼록 정규화제어와 어떻게 관련이 있는가?
  • RQ3비볼록 ReLU 네트워크 목표함수와 그 볼록 이중 공식 사이에 강한 이중성이 성립하는가?
  • RQ4이론은 컨볼루션 네트워크와 같은 구조적 아키텍처로 확장될 수 있으며, 만약 그렇다면 어떤 볼록 재구성 형태가 도출되는가?
  • RQ5제안된 볼록 공식은 일반화 성능과 목적 함수 값 측면에서 기존의 훈련 히우리스틱 기법(예: SGD)과 비교해 볼 때 어떻게 다를까?

주요 결과

  • 가중치 감소를 고려한 두 층의 ReLU 네트워크 훈련 문제는 $n$개의 변수와 무한 개의 제약 조건을 가진 볼록 준무한 프로그램과 동치이며, 이를 다항 시간 내에 변수와 제약 조건의 수가 다항적인 유한 차원 볼록 프로그램으로 재구성할 수 있다.
  • 은닉 뉴런 수 $m$ 이 $m \geq m^*$ 를 만족할 경우, 비볼록 ReLU 네트워크 목표함수와 그 볼록 이중 간에 강한 이중성이 성립하며, 이는 전역 최적성을 보장한다.
  • 가중치 감소와 함께 훈련된 ReLU 네트워크는 데이터 행렬 $X$에서 유도된 유한 차원 특징 공간 내에서 블록 $β$-노름 정규화 모델과 수학적으로 동치이며, 이 특징 공간은 입력 방향의 가능한 모든 정류된 선형 조합을 나타낸다.
  • 이중 문제는 정류된 타원체 집합의 폴라르 세트 위에서 볼록 함수를 최소화하는 것과 동치임을 입증하였으며, 이는 부호 패턴 샘플링을 통한 효율적 계산을 가능하게 한다.
  • 컨볼루션 선형 네트워크의 경우, 볼록 재구성은 이산 푸리에 특징 공간 내에서 $β$-정규화 선형 모델로 감소하며, 특징 수는 $n$과 $d$에 대해 다항식이다.
  • 실험 결과, 제안된 볼록 프로그램(L1-Convex)은 SGD 및 히우리스틱 변형보다 낮은 목적 함수 값을 기록하고 높은 테스트 정확도를 달성하며, 모든 SGD 실현 결과가 볼록 프로그램과 동일한 해에 수렴함을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.