QUICK REVIEW

[논문 리뷰] Memorization in Overparameterized Autoencoders

Adityanarayanan Radhakrishnan, Karren Yang|arXiv (Cornell University)|2018. 10. 16.

Generative Adversarial Networks and Image Synthesis참고 문헌 28인용 수 23

한 줄 요약

이 논문은 과다 매개변수화된 오토인코더가 입력을 훈련 예제로 투영하는 것보다 일반화된 데이터 다양체로의 강력한 인도적 편향을 보임을 보여준다. 경사하강법을 사용할 때, 단일층 오토인코더는 훈련 데이터의 비선형 스트레칭 위로 투영하고, 딥 오토인코더는 훈련 포인트로 국소적으로 수축한다; 깊이가 컨volution형 아키텍처에서 이러한 행동을 유도하는 데 필수적이며 충분하며, 데이터에 따라 달라지는 자기정규화 메커니즘을 드러낸다.

ABSTRACT

The ability of deep neural networks to generalize well in the overparameterized regime has become a subject of significant research interest. We show that overparameterized autoencoders exhibit memorization, a form of inductive bias that constrains the functions learned through the optimization process to concentrate around the training examples, although the network could in principle represent a much larger function class. In particular, we prove that single-layer fully-connected autoencoders project data onto the (nonlinear) span of the training examples. In addition, we show that deep fully-connected autoencoders learn a map that is locally contractive at the training examples, and hence iterating the autoencoder results in convergence to the training examples. Finally, we prove that depth is necessary and provide empirical evidence that it is also sufficient for memorization in convolutional autoencoders. Understanding this inductive bias may shed light on the generalization properties of overparametrized deep neural networks that are currently unexplained by classical statistical theory.

연구 동기 및 목표

훈련 데이터를 완전히 보간함에도 불구하고 잘 일반화하는 과다 매개변수화된 오토인코더의 인도적 편향을 이해하기 위해.
과다 매개변수화된 네트워크에서 경사하강법이 훈련 예제 주변에 집중하는 해를 수렴하는 이유를 조사하기 위해.
기억화—훈련 데이터로의 수축으로 정의됨—가 깊은 오토인코더에서 강건한 성질임을 입증하기 위해, 심지어 복원 오차가 거의 0이어도 성립함을 보여주기 위해.
깊이가 컨볼루션 오토인코더에서 기억화를 가능하게 하기 위해 필수적이며 충분함을 보여주기 위해.
가중치 초기화의 역할을 명확히 하여, 0 중심 초기화가 깔끔한 기억화를 위해 필수적임을 보여주기 위해.

제안 방법

단일층 완전 연결 오토인코더가 경사하강법으로 훈련될 때, 입력을 훈련 예제의 비선형 스트레칭 위로 투영하는 해로 수렴함을 증명하기 위해.
딥 완전 연결 오토인코더가 훈련 포인트에서 국소적으로 수축하는 맵을 유도함을 보여주기 위해, 반복 적용이 가장 가까운 훈련 예제로 수렴함을 보장하기 위해.
ReLU 활성화를 사용하여 비선형 스트레칭을 나타내는 조각별 선형 함수를 구성함으로써, (n+1)·d 개의 히든 유닛을 가진 2층 네트워크가 이 맵핑을 달성할 수 있음을 증명하기 위해.
이론적 분석과 실증적 검증을 통해 깊이가 고정된 너비에서 조절된 컨볼루션 오토인코더에서 기억화를 가능하게 함을 보여주기 위해.
최소 노름 해로 수렴하기 위해 0 초기화를 사용한 경사하강법을 적용하여, 비영초기화가 노이즈가 섞인 기억화를 유도하는 것과 대비하기 위해.
MNIST 및 CIFAR-10 오토인코더를 사용하여 실증적으로 결과를 검증함으로써, 반복 과정에서 테스트 입력의 궤적이 훈련 이미지로 수렴함을 보여주기 위해.

실험 결과

연구 질문

RQ1왜 과다 매개변수화된 오토인코더가 경사하강법으로 훈련될 때, 임의의 보간 함수가 아닌 훈련 데이터 주변에 집중하는 해를 학습하는가?
RQ2깊이가 컨볼루션 오토인코더에서 기억화를 가능하게 하는 데 어떤 역할을 하는가?
RQ3가중치 초기화는 오토인코더에서 기억화의 발생에 어떤 영향을 미치는가?
RQ4높은 복원 오차가 없이도 기억화가 발생할 수 있으며, 이는 조기 정지에 대해 강건한가?
RQ5오토인코더에서의 기억화 인도적 편향은 다른 딥 러닝 아키텍처로 일반화 가능한가?

주요 결과

경사하강법으로 훈련된 단일층 완전 연결 오토인코더는 입력을 훈련 데이터의 비선형 스트레칭 위로 투영하여 훈련 세트를 효과적으로 기억함.
딥 완전 연결 오토인코더는 훈련 예제에서 국소적으로 수축하는 맵을 학습함으로써, 네트워크의 반복 적용이 훈련 예제로 수렴함.
실증 결과는 더 깊은 네트워크가 훈련 예제로의 수축을 더 빠르게 유도함을 보여주며, 깊이가 기억화를 강화함을 확인함.
기억화는 조기 정지에 대해 강건하며, 높은 복원 오차가 필요하지 않음; 심지어 거의 항등함수일 경우에도 훈련 포인트에서 국소적으로 수축 가능함.
충분히 깊을 경우, 컨볼루션 오토인코더는 완전 연결 오토인코더와 동일한 기억화 행동을 보이며, 깊이가 기억화에 필수적이며 충분함을 입증함.
비영초기화는 노이즈가 섞인 기억화를 유도하지만, 0 초기화는 최소 노름 해로의 깔끔한 수렴을 보장함으로써, 초기화가 기억화 편향을 관찰하는 데 있어 중요함을 드러냄.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.