QUICK REVIEW

[논문 리뷰] Implicit Regularization in Deep Matrix Factorization

Sanjeev Arora, Nadav Cohen|arXiv (Cornell University)|2019. 05. 31.

Sparse and Compressive Sensing Techniques참고 문헌 51인용 수 68

한 줄 요약

이 논문은 행렬 보완 및 센싱에 대한 심층 선형 행렬 인수분해에서의 경사하강법을 분석하고, 깊이가 내재된 저랭크 편향을 핵 노름 설명을 넘어 강화한다는 것과 단순한 노름 표기가 충분하지 않을 수 있음을 보여준다.

ABSTRACT

Efforts to understand the generalization mystery in deep learning have led to the belief that gradient-based optimization induces a form of implicit regularization, a bias towards models of low "complexity." We study the implicit regularization of gradient descent over deep linear neural networks for matrix completion and sensing, a model referred to as deep matrix factorization. Our first finding, supported by theory and experiments, is that adding depth to a matrix factorization enhances an implicit tendency towards low-rank solutions, oftentimes leading to more accurate recovery. Secondly, we present theoretical and empirical arguments questioning a nascent view by which implicit regularization in matrix factorization can be captured using simple mathematical norms. Our results point to the possibility that the language of standard regularizers may not be rich enough to fully encompass the implicit regularization brought forth by gradient-based optimization.

연구 동기 및 목표

행렬 보완 및 센싱을 위한 심층 선형 네트워크에서의 내재 정규화 연구를 고무한다.
심층 인수분해의 내재 바이어스가 핵 노름이나 Schatten 노름과 같은 표준 노름으로 포착될 수 있는지 평가한다.
깊이에 따라 내재 정규화として의 핵 노름 최소화에 관한 추측을 이론적으로 확장하고 검증한다.
학습된 곱 행렬의 특이값과 특이 벡터의 동역학을 경사 흐름 하에서 특성화한다.
깊이 효과와 노름 기반 예측을 대조하는 실험적 증거를 제시한다.

제안 방법

깊이 N의 심층 행렬 인수분해에서의 경사 흐름을 초기 가중치가 거의 0에 가까운 상태로 연구한다.
경사 흐름과 핵 노름 최소화 간의 연결을 다루었던 선행 연구를 깊이 2에서 임의의 깊이로 확장한다.
곱 행렬 W(t)에 대한 특이값 분해를 도출하고 이를 경사 역학 하에서의 진화를 분석한다.
특이값의 진화에 대한 미분방정식을 도출한다: dot{sigma}_r(t) = -N*(sigma_r^2(t))^{1-1/N} * <∇ℓ(W(t)), u_r(t)v_r^T(t)>, 깊이에 따라 조절되는 동역학을 보임.
U(t)와 V(t)에 대한 연쇄 미분방정식을 통해 특이 벡터를 분석하고, 그것들이 경사의 특이 벡터와 일치하는 조건을 확립한다.
행렬 보완 및 행렬 센싱에 관한 실험을 수행하여 깊이-2, 깊이-3 등을 핵 노름 기준선 및 실제 정답과 비교한다.

실험 결과

연구 질문

RQ1심층 행렬 인수분해에서의 경사하강이 깊이-2 인수분해보다 강한 내재 정규화를 보이는가?
RQ2심층 인수분해의 내재 정규화가 핵 노름이나 Schatten 준노름과 같은 표준 노름으로 완전히 포착될 수 있는가?
RQ3훈련 중 특이값/특이 벡터의 진화에 깊이 N이 어떤 영향을 미치는가?
RQ4경험적 결과가 깊이에 걸쳐 추측 1(내재 정규화로서의 핵 노름 최소화)을 뒷받침하는가 아니면 도전하는가?
RQ5심층 선형 모델의 일반화에 대한 역학의 실용적 시사점은 무엇인가?

주요 결과

깊이는 행렬 보완 및 센싱에서 저랭크 해법에 대한 내재적 경향을 강화한다.
핵 노름 최소화는 심층 인수분해의 내재 정규화를 완전히 포착하지 못하며; Schatten p-노름은 일관되게 이를 설명하지 않는다.
경사 흐름 하의 특이값 진화는 큰 값을 더 빠르게, 작은 값을 더 느리게 만들며, 깊이가 증가할수록 그 효과가 더 강해진다.
학습된 곱의 특이 벡터는 고정될 때 경사의 특이 벡터와 일치하며, 이는 경사 방향과 인수분해 동역학 간의 결합을 시사한다.
데이터가 적은 환경에서 더 깊은 인수분해가 더 우수한 성능을 보이고, 관측이 풍부할 때 모든 깊이가 실제 해로 수렴한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.