QUICK REVIEW

[논문 리뷰] Deep Networks on Toroids: Removing Symmetries Reveals the Structure of Flat Regions in the Landscape Geometry

Fabrizio Pittorino, Antonio Ferraro|arXiv (Cornell University)|2022. 01. 01.

Advanced Neural Network Applications참고 문헌 41인용 수 7

한 줄 요약

이 논문은 표준화된 파rameterization을 통해 파rameter 대칭성을 제거함으로써 깊이 신경망의 손실 곡면을 분석하기 위한 기하학적 프레임워크를 제안한다. 이로 인해 토러스 구조의 위상이 도출된다. 파rameter 공간이 아닌 함수 공간에서 오차 곡면을 연구함으로써, 저평탄한 최소값은 더 연결되어 있으며, 상호 간 거리가 가까워지고, 낮은 장벽을 통해 연결되어 있음을 밝혀내며, 다양한 최적화 알고리즘에서 유도된 최소값들은 간단한 다각형 경로로 연결된다. 이는 과다 매개변수화된 네트워크에서 평탄함, 일반화, 연결성 간의 강력한 연관성을 뒷받침한다.

ABSTRACT

We systematize the approach to the investigation of deep neural network landscapes by basing it on the geometry of the space of implemented functions rather than the space of parameters. Grouping classifiers into equivalence classes, we develop a standardized parameterization in which all symmetries are removed, resulting in a toroidal topology. On this space, we explore the error landscape rather than the loss. This lets us derive a meaningful notion of the flatness of minimizers and of the geodesic paths connecting them. Using different optimization algorithms that sample minimizers with different flatness we study the mode connectivity and relative distances. Testing a variety of state-of-the-art architectures and benchmark datasets, we confirm the correlation between flatness and generalization performance; we further show that in function space flatter minima are closer to each other and that the barriers along the geodesics connecting them are small. We also find that minimizers found by variants of gradient descent can be connected by zero-error paths composed of two straight lines in parameter space, i.e. polygonal chains with a single bend. We observe similar qualitative results in neural networks with binary weights and activations, providing one of the first results concerning the connectivity in this setting. Our results hinge on symmetry removal, and are in remarkable agreement with the rich phenomenology described by some recent analytical studies performed on simple shallow models.

연구 동기 및 목표

신경망 곡면의 파rameter 공간 기하학과 기능적 행동 간의 괴리 문제를 해결하기 위해.
가중치 파rameter화에서의 중복 대칭성으로 인한 평탄함과 연결성 측정의 모호성 문제를 해결하기 위해.
오차 곡면을 분석하기 위한 표준화되고 대칭성이 없는 기하학적 프레임워크를 구축하기 위해.
과다 매개변수화된 네트워크에서 평탄함, 일반화, 연결성 간의 관계를 경험적으로 조사하기 위해.
이 설정에서 이르기까지는 처음으로 연결성 분석을 제공하는 이진 가중치 네트워크에 대한 통찰을 확장하기 위해.

제안 방법

저자들은 입력-출력 매핑을 동일하게 구현하는 네트워크를 그룹화함으로써 기능적 동치성 기반의 동치 클래스를 정의한다.
은닉 유닛과 필터에서 연속적인 척도 불변성과 이산적인 순열 대칭성을 제거하는 표준화된 파rameterization을 적용한다.
이로 인해 대칭군에 의해 파arameter 공간을 몫으로 나누어 토러스 위상 공간이 되며, 잘 정의된 기하 기술이 가능해진다.
오차 곡면은 대칭성이 없는 함수 공간에서 분석되며, 이로 유도된 리만 메트릭을 사용해 평탄함과 기하학적 거리를 계산한다.
최적화 알고리즘(SGD, RSGD, ADV)을 사용해 다양한 평탄도를 가진 최소값을 샘플링하고, 기하학적 경로와 선형 보간을 통해 비교한다.
이진 네트워크의 경우, 내부 연속 가중치를 사용해 곡면을 투영한 후 이진화를 수행해 훈련 오차를 계산한다.

실험 결과

연구 질문

RQ1파arameter 공간에서 대칭성을 제거하면 깊이 신경망의 오차 곡면 기하학적 구조에 어떤 영향을 미치는가?
RQ2최소값의 평탄함과 함수 공간에서의 연결성 간의 관계는 무엇인가?
RQ3대칭성 제거 후 오차 곡면에서 더 평탄한 최소값들이 더 가까이 있고 낮은 장벽을 통해 연결되어 있는가?
RQ4다른 최적화 알고리즘이 대칭성이 없는 공간에서 기하학적으로 구조적으로 연결된 최소값을 도출하는가?
RQ5이진 가중치 신경망의 연결성과 장벽 구조는 정밀도가 높은 모델과 어떻게 다를까?

주요 결과

대칭성이 제거된 함수 공간에서 평탄한 최소값은 항상 상호 간 기하학적 거리가 감소하여 더 가까이 있다.
SGD, RSGD, ADV 등 다양한 최적화 알고리즘으로 도출된 최소값들은 낮은 장벽을 가진 기하학적 경로로 연결되며, 이는 매우 연결된 곡면을 의미한다.
특히 경로 최적화가 이루어진 경우, 대칭성 제거 후 최소값 간 기하학적 경로의 장벽이 크게 감소한다.
다른 평탄도 수준의 최소값들은 파arameter 공간에서 두 개의 직선 세그먼트로 구성된 오차가 0인 다각형 경로로 연결되어 있으며, 이는 단순한 기하학적 구조를 시사한다.
이진 가중치 네트워크의 경우에도 유사한 연결성과 낮은 장벽 구조가 관찰되어, 이 프레임워크가 가중치 양자화에 대해 강건함을 확인한다.
결과는 넓고 평탄한 해의 영역이 밀집한 중심 클러스터와 가지가 튼 예리한 최소값을 가진 문어 모양의 구조를 형성한다는 추측을 지지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.