QUICK REVIEW

[논문 리뷰] Cheap Orthogonal Constraints in Neural Networks: A Simple Parametrization of the Orthogonal and Unitary Group

Mario Lezcano-Casado, David Martı́nez-Rubio|arXiv (Cornell University)|2019. 01. 24.

Model Reduction and Neural Networks참고 문헌 38인용 수 59

한 줄 요약

이 논문은 지수 맵 기반 매개화를 통해 직교 및 유니타리 그룹에서의 최적화를 가능하게 하여, RNN에 대해 제약 없는 1차 최적화를 구현하고 견고하고 효율적인 학습 및 경쟁력 있는 결과를 제공합니다. exprnn 아키텍처를 시연하고 구현 세부사항 및 기존 방법과의 경험적 비교를 제공합니다.

ABSTRACT

We introduce a novel approach to perform first-order optimization with orthogonal and unitary constraints. This approach is based on a parametrization stemming from Lie group theory through the exponential map. The parametrization transforms the constrained optimization problem into an unconstrained one over a Euclidean space, for which common first-order optimization methods can be used. The theoretical results presented are general enough to cover the special orthogonal group, the unitary group and, in general, any connected compact Lie group. We discuss how this and other parametrizations can be computed efficiently through an implementation trick, making numerically complex parametrizations usable at a negligible runtime cost in neural networks. In particular, we apply our results to RNNs with orthogonal recurrent weights, yielding a new architecture called expRNN. We demonstrate how our method constitutes a more robust approach to optimization with orthogonal constraints, showing faster, accurate, and more stable convergence in several tasks designed to test RNNs.

연구 동기 및 목표

직교/유니타리 제약 하에서의 견고한 최적화를 통해 RNN의 폭발적/소실 경사 문제를 완화할 동기를 제시한다.
제약된 문제를 제약 없는 Euclidean 문제로 바꾸기 위한 Lie 이론적 지수 매개화를 제안한다.
신경망에서 실용적이고 낮은 오버헤드를 가능하게 하는 구현 트릭을 제공한다.
기존 방법과 비교하여 표준 장기 시퀀스 작업에서의 경험적 이점을 시연한다.

제안 방법

행렬 지수 exp(A)로 직교/유니타리 그룹 G(SO(n), U(n))를 A가 Lie 대수에 속하는 경우 매개화한다(=skew-symmetric/skew-Hermitian).
연결된 컴팩트 Lie 그룹에서 지수 맵의 전사성 surjectivity를 보이고 매개화로 인한 거리 변화 등을 논의한다.
exp(A) 및 그 그래디언트를 효율적으로 계산하기 위해 스케일-스퀴어링으로 Padé 근사치를 사용한다.
f(exp(A))에 대한 정확한 그래디언트 공식을 도출하여 기계 정밀도 그래디언트를 가능하게 한다(Proposition 4.1).
h_{t+1}=sigma(exp(A) h_t + T x_{t+1}) 형태의 exp RNN(exprnn)을 정의하며, A는 skew-symmetric, T는 선형 맵이다.
최적화를 위한 초기화 및 실용적 절단(재수정) 방법을 논의한다.

실험 결과

연구 질문

RQ1매트릭스 지수 매개화가 경험적에서 하드 직교성 제약에 대한 강력하고 저비용의 대안을 제공하는가?
RQ2exp 맵을 통해 skew-symmetric 매트릭스를 최적화하는 것이 직교 제약을 가진 RNN의 수렴성, 안정성, 일반화에 도움이 되는가?
RQ3실무에서 Cayley 변환, 리만 기하학적 그래디언트 방법 등 기존 방법과 비교해 exp 매개화가 얼마나 실용적인가?
RQ4신경망에서 이러한 매개화를 효율적으로 구현하고 초기화하는 실용적 트릭은 무엇인가?

주요 결과

모델	n	# 매개변수	mnist	p-mnist
exprnn	170	~16K	0.980	0.949
exprnn	360	~69K	0.984	0.962
exprnn	512	~137K	0.987	0.966
scornn	170	~16K	0.972	0.948
scornn	360	~69K	0.981	0.959
scornn	512	~137K	0.982	0.965
lstm	128	~68K	0.819	0.795
lstm	256	~270K	0.888	0.888
lstm	512	~1058K	0.919	0.918
rgd	116	~9K	0.947	0.925
rgd	512	~137K	0.973	0.947
urnn	512	~9K	0.976	0.945
urnn	2170	~69K	0.984	0.953
eurnn	512	~9K	-	0.937

지수 매개화는 다수의 작업에서 직교 RNN(exprnn)의 더 빠르고 안정적인 수렴을 제공한다.
매개화를 통해 하드 직교성을 강제하지 않고도 일반 최적화 알고리즘을 사용할 수 있으며 실제 실행 시간 오버헤드는 무시할 만하다.
실험 결과는 exprnn이 메모리 복제, 픽셀-MNIST, timit 음성 작업에서 여러 모델 크기에 대해 경쟁 방법을 능가하거나 일치하는 성능을 보여준다.
스케일-스퀴어링이 적용된 Padé 기반 지수 근사로 기계 정밀도 exp 및 정확한 그래디언트 계산이 가능해 수치 안정성을 향상시킨다.
블록 대각선 skew-symmetric 블록과 같은 초기화 전략은 고유값 구조를 활용한 더 나은 학습 역학에 도움을 준다.
본 접근법은 Cayley 변환 방식에서 나타나는 일부 특이점들을 피하면서 경쟁력 있는 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.