QUICK REVIEW

[논문 리뷰] Gradient Starvation: A Learning Proclivity in Neural Networks

Mohammad Pezeshki, Sékou-Oumar Kaba|arXiv (Cornell University)|2020. 11. 18.

Adversarial Robustness in Machine Learning참고 문헌 102인용 수 42

한 줄 요약

이 논문은 cross-entropy 하에서 over-parameterized 네트워크에서 Gradient Starvation을 정형화하고, 강한 특징이 약한 특징의 학습을 방해하는 방식과 특징 학습을 해체하기 위한 Spectral Decoupling을 도입하여 강건성과 OOD 일반화를 개선한다.

ABSTRACT

We identify and formalize a fundamental gradient descent phenomenon resulting in a learning proclivity in over-parameterized neural networks. Gradient Starvation arises when cross-entropy loss is minimized by capturing only a subset of features relevant for the task, despite the presence of other predictive features that fail to be discovered. This work provides a theoretical explanation for the emergence of such feature imbalance in neural networks. Using tools from Dynamical Systems theory, we identify simple properties of learning dynamics during gradient descent that lead to this imbalance, and prove that such a situation can be expected given certain statistical structure in training data. Based on our proposed formalism, we develop guarantees for a novel regularization method aimed at decoupling feature learning dynamics, improving accuracy and robustness in cases hindered by gradient starvation. We illustrate our findings with simple and real-world out-of-distribution (OOD) generalization experiments.

연구 동기 및 목표

경사 하강법이 cross-entropy 손실 하에서 예측 특징의 부분집합에 왜 집중하는지 동기를 부여하고 이를 공식화한다.
NTK(regime)에서 학습 역학에 대한 이론적 프레임워크를 개발하여 특징 불균형을 설명한다.
Spectral Decoupling을 특징 학습을 분리하고 Gradient Starvation을 완화하기 위한 간단한 규제(regularizer)로 제안한다.
분류 및 OOD 과제에 걸친 이론적 보증과 경험적 증거를 제공한다.
의미 있는 관련성 없는(spurious) 상관관계가 있는 데이터에서의 강건성과 일반화에 대한 시사점을 논의한다.

제안 방법

학습 역학을 선형화하기 위해 신경망을 Neural Tangent Kernel regime으로 모델링한다.
Y Phi0의 SVD를 통해 직교 특징 방향으로 학습 역학을 분해하여 특징과 반응을 정의한다.
Gradient Starvation을 특징 방향 간의 결합으로 공식화하여 다른 특징이 더 강할 때 일부 특징의 학습이 느려지게 한다.
가변 bound를 통해 cross-entropy의 이원식( dual formulation) 도출하여 취급 가능한 역학과 고정점을 얻는다.
Spectral Decoupling을 도입하여 가중치 감소(weight decay)를 로짓 기반 L2 패널티로 대체하고 이중 특징 역학을 분리한다.
이론적 결과(예: 고정점 분석 및 섭동 결과)와 간단한 분석 사례 및 실험으로 검증한다.

실험 결과

연구 질문

RQ1Cross-entropy로 학습된 네트워크에서 Gradient Starvation이 어떤 조건에서 나타나는가?
RQ2특징 강도 차이와 특징 방향 간 결합이 학습 역학에 어떻게 영향을 미치는가?
RQ3간단한 규제가 특징 학습을 분리하고 깨끗한 정확도에 해를 끼치지 않으면서 Gradient Starvation을 완화할 수 있는가?
RQ4Spectral Decoupling이 태스크 전반에서 강건성과 out-of-distribution 성능을 향상시키는가?

주요 결과

Gradient Starvation은 강한 특징이 약한 그러나 예측력이 있는 특징의 학습을 억제할 때 Gradient Starvation이 발생한다.
특징 공간의 비대각 상호작용으로 인한 결합된 학습 역학이 GS를 야기하며, 특히 특징 강도가 다를 때 그렇다.
Spectral Decoupling 정규화는 이중 역학을 독립적으로 만들어 GS를 완화하고 다수의 특징 학습을 가능하게 한다.
SD는 보고된 실험에서 CIFAR-2/10/100의 적대적 강건성 및 OOD 성능을 향상시키고 깨끗한 정확도 손실 없이.
SD는 CIFAR-2에서 더 큰 분류 마진을 만들고 스퓨리어스한 성별-색상 상관관계가 있는 CelebA의 머리카락 색 분류에서 최악 그룹 정확도를 향상시킨다.
색상 MNIST에서의 실험은 SD가 색상을 넘어서 강건한 특징 학습을 돕고 비학습 환경에서 테스트 성능을 향상시킴을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.