QUICK REVIEW

[논문 리뷰] Trivializations for Gradient-Based Optimization on Manifolds

Mario Lezcano-Casado|arXiv (Cornell University)|2019. 09. 20.

Neural Networks and Applications참고 문헌 52인용 수 35

한 줄 요약

이 논문은 다양체 제약 최적화를 무제약 문제로 변환하는 trivialization을 도입하고, 두 가지 주요 계열(Riemannian 지수와 Lie 지수)과 이들의 동적 확장을 분석하며, 행렬 다양체와 신경망 과제에서 최적화 성능이 향상됨을 보여준다.

ABSTRACT

We introduce a framework to study the transformation of problems with manifold constraints into unconstrained problems through parametrizations in terms of a Euclidean space. We call these parametrizations "trivializations". We prove conditions under which a trivialization is sound in the context of gradient-based optimization and we show how two large families of trivializations have overall favorable properties, but also suffer from a performance issue. We then introduce "dynamic trivializations", which solve this problem, and we show how these form a family of optimization methods that lie between trivializations and Riemannian gradient descent, and combine the benefits of both of them. We then show how to implement these two families of trivializations in practice for different matrix manifolds. To this end, we prove a formula for the gradient of the exponential of matrices, which can be of practical interest on its own. Finally, we show how dynamic trivializations improve the performance of existing methods on standard tasks designed to test long-term memory within neural networks.

연구 동기 및 목표

제약된 다양체 최적화를 매개화(트리비얼라이제이션)를 통해 무제약 문제로 전환하는 것을 동기화한다.
trivialization이 언제 타당하며 다양체의 계량 변경으로 작용하는지 특징화한다.
두 가지 큰 계열(trivializations)인 Riemannian 지수와 Lie 지수의 비교와 한계점을 확인한다.
trivialization과 Riemannian 그래디언트 디센트 사이를 보간하는 동적 trivializations를 도입한다.
행렬 다양체와 신경망에서의 실용적 이점을 보여주기 위한 지수 및 Lie 매개화의 그래디언트 계산 도구를 제공한다.

제안 방법

trivialization을 R^n에서 다양체 M로의 전사 사상으로 정의하고, 미분동형사상 아래 그것의 계량 변경 효과를 분석한다.
두 가지 주요 trivialization인 Riemannian 지수와 Lie 지수의 미분동형성 특성과 잘림점 근처의 잠재적 사다리점에 대해 연구한다.
접선 공간에서의 최적화와 재매개화를 번갈아 수행하는 동적 trivializations를 도입하여 사다리점을 탐색하고 두 접근의 장점을 결합한다.
행렬 지수 매개화의 그래디언트 공식을 도출하여 실용적 최적화를 가능하게 한다 (∇(f∘exp))(A) = (d exp)_{A^T}(∇f(e^A)).
일반적인 다양체(SO(n) 등)에 대한 실용적인 리트랙션과 프로젝션 기반 리트랙션을 논의한다.
Lie 지수 매개화의 그래디언트 계산 전략과 행렬 Lie 군에서의 동적 trivializations에의 활용을 제시한다.

실험 결과

연구 질문

RQ1어떤 조건에서 trivialization이 다양체에서의 그래디언트 기반 최적화를 위한 건전한 변환을 제공하는가?
RQ2Riemannian 지수 trivialization과 Lie 지수 trivialization이 각각의 경계 영역(컷 로스) 근처에서 어떻게 작용하고 그 한계는 무엇인가?
RQ3동적 trivializations가 사다리점이나 국소 최솟값 문제를 완화하고 trivialization과 Riemannian 그래디언트 디센트 사이를 보간할 수 있는가?
RQ4행렬 지수 매개화와 Lie 지수 매개화의 그래디언트를 실용적 최적화를 위해 효율적으로 계산하는 방법은?
RQ5동적 trivializations가 신경망의 다양체 제약이 포함된 표준 과제의 성능을 향상시키는가?

주요 결과

trivialization은 φ가 미분동형사상일 때 다양체에서 계량 변경으로 작용하여 그래디언트 방법의 수렴 특성을 보존한다.
Riemannian 지수 및 Lie 지수 trivializations는 컷 로스나 경계 근처에서 사다리점이나 국소최솟값을 만들 수 있다.
동적 trivializations는 trivializations와 Riemannian 그래디언트 디센트 사이의 연속체를 제공하여 접선 공간에서 유클리드 최적화를 활용하면서 경로에 따라 기저를 적응시키는 최적화 방법을 가능하게 한다.
행렬 지수 매개화의 그래디언트 공식은 기계 정밀도 그래디언트 계산으로 Lie 기반 trivializations의 실용적 사용을 가능하게 한다.
동적 trivializations는 직교 제약 과제와 표준 신경망 메모리 벤치마크에서 성능을 향상시키며 MNIST, p-MNIST, Timit 실험에서 기존 방법 대비 개선을 보인다.
이 논문은 일반적인 행렬 다양체에 대한 실용적 구현을 제공하고 재tractions(리트랙션)과 프로젝션을 계산 도구로 논의한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.