[논문 리뷰] Measurements of Three-Level Hierarchical Structure in the Outliers in the Spectrum of Deepnet Hessians
이 논문은 딥 네트워크의 헤시안 스펙트럼에서의 이방자들이 공분산 구조 때문이 아니라, 그라디언트의 중심이 제거되지 않은 두 번째 모멘트에서 기인함을 밝혀낸다. 이 두 번째 모멘트는 데이터 샘플, 클래스, 로짓 좌표 수준에서 세 단계의 계층적 구조를 띤다. 이러한 구조를 평균화 연산을 통해 활용함으로써, 전체 고유분석을 수행하지 않고도 헤시안의 주성분 부분공간을 효율적으로 근사할 수 있으며, 다양한 아키텍처와 데이터셋에서 높은 정확도로 검증되었다.
We consider deep classifying neural networks. We expose a structure in the derivative of the logits with respect to the parameters of the model, which is used to explain the existence of outliers in the spectrum of the Hessian. Previous works decomposed the Hessian into two components, attributing the outliers to one of them, the so-called Covariance of gradients. We show this term is not a Covariance but a second moment matrix, i.e., it is influenced by means of gradients. These means possess an additive two-way structure that is the source of the outliers in the spectrum. This structure can be used to approximate the principal subspace of the Hessian using certain "averaging" operations, avoiding the need for high-dimensional eigenanalysis. We corroborate this claim across different datasets, architectures and sample sizes.
연구 동기 및 목표
- 딥 네트워크 헤시안의 스펙트럼 이방자의 기원을 설명하는 것. 이는 이전 연구에서 G 성분(Covariance of gradients)에 기인한다고 보고한 lin.
- G 성분이 진정한 공분산이 아니며, 그라디언트의 중심이 제거되지 않은 두 번째 모멘트 행렬이며, 이 이방자들은 그라디언트의 중심이 제거되지 않은 평균에서 기인함을 보여주는 것.
- 그라디언트 통계치의 계층적 군집에 대한 평균화 연산을 통해 헤시안의 주성분 부분공간을 근사하는 방법을 개발하는 것. 이는 비용이 많이 드는 고유분석을 피할 수 있도록 한다.
- 이 근사법이 다양한 아키텍처(예: ResNet18, VGG16), 데이터셋(MNIST, CIFAR10, ImageNet), 샘플 크기에서 검증되는 것.
- 고유분석을 수행하지 않고도 샘플 크기의 함수로 이방자의 크기와 행동을 예측할 수 있도록, 그라디언트 평균의 구조적 성질을 활용하는 것.
제안 방법
- 헤시안은 두 성분으로 분해된다: H(Gauss-Newton 항)와 G(그라디언트의 두 번째 모멘트), 여기서 G가 스펙트럼 이방자의 근본 원인이다.
- G 행렬은 $ G = \frac{1}{n} \Delta \Delta^T $ 로 표현되며, 여기서 $ \Delta $ 는 샘플, 클래스, 로짓 좌표로 인덱싱된 그라디언트 도함수의 행렬이다.
- $ \Delta $ 의 열들은 클래스 $ c $ 와 로짓 좌표 $ c' $ 에 따라 $ C^2 $ 개의 그룹으로 분할되며, 각 그룹은 그룹 평균 $ \delta_{c,c'} $ 와 공분산 $ \Sigma_{c,c'} $ 를 가지며, 이는 세 단계의 계층적 구조를 형성한다.
- G의 주요 고유값은 $ G_{1+2} = (C-1)\sum_c \delta_c \delta_c^T + \sum_c \delta_c \delta_c^T $ 의 고유값에 의해 잘 근사됨을 보여주며, 이는 클래스와 로짓 좌표 수준에서 그룹 평균을 집계한 것이다.
- 이 방법은 $ \delta_{c,c'} $ 에 대한 평균화 연산을 통해 저랭크 근사를 사용하여, 전체 SVD나 파wer 반복을 수행하지 않고도 주성분 부분공간을 효율적으로 계산할 수 있다.
- 실험적 검증은 FastLanczos와 LowRankDeflation을 사용하여 스펙트럼을 근사하고, 아키텍처와 데이터셋 전반에서 $ G $, $ G_1 $, $ G_2 $, $ G_{1+2} $ 를 비교한다.
실험 결과
연구 질문
- RQ1딥 네트워크 헤시안의 스펙트럼 이방자는 무엇에 기인하며, 왜 G 성분은 진정한 공분산 행렬이 아니며?
- RQ2샘플, 클래스, 로짓 좌표 수준에서의 그라디언트 평균의 계층적 구조는 어떻게 이방 고유값을 유도하는가?
- RQ3고유분석 없이도 그라디언트 평균에 대한 평균화 연산만으로 헤시안의 주성분 부분공간을 효율적으로 근사할 수 있는가?
- RQ4이방자의 크기는 훈련 샘플 크기와 어떻게 스케일링되며, 이는 고유값을 계산하지 않고도 예측할 수 있는가?
- RQ5$ G_1 $, $ G_2 $, $ G_{1+2} $ 의 근사치가 진짜 $ G $ 의 상위 고유값과 얼마나 일치하는가? 그리고 그 차이를 설명할 수 있는가?
주요 결과
- 헤시안의 스펙트럼 이방자는 공분산 구조 때문이 아니라, G 성분이 평균을 제거하지 않은 두 번째 모멘트에서 기인하며, 이는 G 성분이 평균 제거가 없기 때문이다.
- G의 주요 고유값은 $ G_{1+2} $ 의 고유값에 의해 잘 근사되며, 이는 클래스와 로짓 좌표 수준에서 그룹 평균을 집계한 것이다.
- $ G_{1+2} $ 의 상위- $ C $ 개 고유값은 주요하며 $ G_1 $ 과 매우 유사하게 일치함을 보여, 계층적 평균 구조가 주성분 부분공간 근사에 충분함을 시사한다.
- $ G_0 $ 의 고유값은 무시할 만큼 작으며, 스펙트럼의 주로브 내에서 단일 청색 점으로 나타남.
- 모든 테스트된 데이터셋(MNIST, Fashion MNIST, CIFAR10, ImageNet)과 아키텍처(ResNet18, VGG16, ResNet50)에서 $ G_{1+2} $ 를 통한 근사는 스펙트럼의 진짜 이방자와 일관되게 일치함.
- $ G_{1+2} $ 와 $ G $ 간의 편차는 랜덤 매트릭스 이론의 예측과 일치하며, 계층 모델의 강건성을 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.