QUICK REVIEW

[논문 리뷰] Task structure and nonlinearity jointly determine learned representational geometry

Matteo Alleman, Jack Lindsey|arXiv (Cornell University)|2024. 01. 24.

Neural Networks and Applications인용 수 7

한 줄 요약

본 논문은 활성화 함수가 네트워크의 은닉 표현이 입력과 목표 출력 기하학과 어떻게 정렬되는지에 영향을 미친다는 것을 보이며, tanh는 목표에 정렬되고 해제된 표현을, ReLU는 입력 기하학을 보존함을 간단한 과제와 복잡한 과제에서 보여준다.

ABSTRACT

The utility of a learned neural representation depends on how well its geometry supports performance in downstream tasks. This geometry depends on the structure of the inputs, the structure of the target outputs, and the architecture of the network. By studying the learning dynamics of networks with one hidden layer, we discovered that the network's activation function has an unexpectedly strong impact on the representational geometry: Tanh networks tend to learn representations that reflect the structure of the target outputs, while ReLU networks retain more information about the structure of the raw inputs. This difference is consistently observed across a broad class of parameterized tasks in which we modulated the degree of alignment between the geometry of the task inputs and that of the task labels. We analyzed the learning dynamics in weight space and show how the differences between the networks with Tanh and ReLU nonlinearities arise from the asymmetric asymptotic behavior of ReLU, which leads feature neurons to specialize for different regions of input space. By contrast, feature neurons in Tanh networks tend to inherit the task label structure. Consequently, when the target outputs are low dimensional, Tanh networks generate neural representations that are more disentangled than those obtained with a ReLU nonlinearity. Our findings shed light on the interplay between input-output geometry, nonlinearity, and learned representations in neural networks.

연구 동기 및 목표

입력 기하학, 레이블 기하학, 그리고 네트워크 아키텍처가 학습된 표현을 어떻게 형성하는지 조사한다.
하나의 은닉층 네트워크가 서로 다른 비선형성 하에서 어떻게 표현을 학습하는지 검토한다.
정렬, 해제성, 일반화 지표를 통해 과제 전반에 걸친 표현의 기하를 정량화한다.
활성화 함수 비대칭성이 학습 역학 및 표현 구조에 어떤 영향을 미치는지 평가한다.

제안 방법

입출력 기하를 제어하기 위해 이진 잠재 변수를 가진 매개변수화된 분류 과제군을 사용한다.
두 번째 층을 고정하고 첫 번째 층 가중치만 학습시켜 표현 학습을 분석한다.
다양한 입력-출력 정렬 및 노이즈 수준에서 tanh와 ReLU 비선형성을 비교한다.
가중치 공간에서 경사를 클래스 간 축과 클래스 내 축으로 투사하여 학습 역학을 분석한다.
다양한 지표를 적용하여 표현을 특징짓는다: 목표 정렬, 입력 정렬, 커널 정렬, 병렬성 점수, 그리고 교차 조건 일반화 성능(CCGP).
일반성을 검증하기 위해 다층 네트워크 및 합성곱 아키텍처로 분석을 확장한다.

실험 결과

연구 질문

RQ1활성화 함수(tanh 대 ReLU)가 학습된 표현과 과제의 입력 대 출력 기하학 사이의 정렬에 어떤 영향을 미치는가?
RQ2입력-출력 정렬, 노이즈, 과제 복잡도가 서로 다른 비선형성 하에서 표현의 기하에 어떤 영향을 미치는가?
RQ3얕은 네트워크에서 관찰된 효과가 깊은 네트워크 및 합성곱 아키텍처에서도 지속되는가?
RQ4목표에 정렬된 표현과 입력 주도적 표현의 등장을 이끄는 학습 역학은 무엇인가?
RQ5커널 정렬, 병렬성 점수, CCGP와 같은 측정치가 이러한 기하학적 변화를 어떻게 반영하는가?

주요 결과

Tanh 네트워크는 목표 출력 구조와 정렬된 표현을 학습하는 경향이 있어 더 높은 목표 정렬, 병렬성 및 CCGP를 보인다.
ReLU 네트워크는 입력 기하학의 더 많은 부분을 보존하여 학습되지 않은 레이블링에 대해 더 높은 입력 정렬 및 디코딩 능력을 유지한다.
tanh 하의 그라디언트는 클래스 간 축 정렬을 촉진하고 클래스 내 선택성을 감소시키는 반면, ReLU 그라디언트는 가중치를 미리 존재하는 클래스 내 선택성을 확대하도록 밀어붙인다.
입력-출력 정렬 증가(더 큰 delta)가 tanh 네트워크에서 더 크게 목표 정렬을 향상시키고 ReLU 네트워크에서보다 크다.
XOR와 유사한 과제의 경우, 입력이 얽히더라도 tanh 표현은 추상화되며, ReLU는 다양한 난이도에 걸쳐 입력 주도적 구조를 유지한다.
활성화 함수의 대칭 포화 특성(원점의 동작뿐만 아니라)이 목표 정렬된 표현으로 강하게 편향시키며; 원점을 중심으로 한 대칭은 조절 효과를 가지지만 결정적이지는 않다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.