QUICK REVIEW

[논문 리뷰] Stochastic Optimization for DC Functions and Non-smooth Non-convex Regularizers with Non-asymptotic Convergence

Yi Xu, Qi Qi|arXiv (Cornell University)|2018. 11. 28.

Sparse and Compressive Sensing Techniques인용 수 24

한 줄 요약

이 논문은 차등-볼록(DC) 함수를 포함하는 비볼록, 비미분 가능 문제 및 일반적인 비볼록, 비미분 가능 정규화 항을 위한 새로운 확률적 최적화 알고리즘을 제안한다. 그들은 경계 성질의 그라디언트 성분에 적응함으로써 비점근적 수렴 보장을 처음으로 확립하며, 큰 미니배치가 필요로 하는 것을 피하고, 대규모 데이터 응용 분야에서 효율적이고 사용자 친화적인 최적화를 가능하게 한다.

ABSTRACT

Difference of convex (DC) functions cover a broad family of non-convex and possibly non-smooth and non-differentiable functions, and have wide applications in machine learning and statistics. Although deterministic algorithms for DC functions have been extensively studied, stochastic optimization that is more suitable for learning with big data remains under-explored. In this paper, we propose new stochastic optimization algorithms and study their first-order convergence theories for solving a broad family of DC functions. We improve the existing algorithms and theories of stochastic optimization for DC functions from both practical and theoretical perspectives. On the practical side, our algorithm is more user-friendly without requiring a large mini-batch size and more efficient by saving unnecessary computations. On the theoretical side, our convergence analysis does not necessarily require the involved functions to be smooth with Lipschitz continuous gradient. Instead, the convergence rate of the proposed stochastic algorithm is automatically adaptive to the H\\"{o}lder continuity of the gradient of one component function. Moreover, we extend the proposed stochastic algorithms for DC functions to solve problems with a general non-convex non-differentiable regularizer, which does not necessarily have a DC decomposition but enjoys an efficient proximal mapping. To the best of our knowledge, this is the first work that gives the first non-asymptotic convergence for solving non-convex optimization whose objective has a general non-convex non-differentiable regularizer.

연구 동기 및 목표

DC 분해를 초월하는 일반적인 정규화 항을 갖는 비볼록, 비미분 가능 문제에 대해 효율적인 확률적 최적화 방법의 부족을 해결한다.
기존의 확률적 알고리즘들이 그라디언트 정확도를 확보하기 위해 큰 미니배치 크기를 요구하는 실용적 제약을 극복한다.
리프시츠 연속 그라디언트를 가정하지 않는 이론적 프레임워크를 개발하며, 대신 구성 요소 함수의 허더링 연속성에 따라 수렴 속도를 적응적으로 조정한다.
DC 분해가 불가능하지만 효율적인 프록시멀 매핑을 허용하는 비볼록, 비미분 가능 정규화 항을 갖는 문제로 확률적 최적화를 확장한다.
이러한 일반적인 비볼록 정규화 문제를 해결하는 데 있어 첫 비점근적 수렴 분석을 제공한다.

제안 방법

비미분 가능 성분을 선형화하고 효율적인 프록시멀 매핑을 사용하여 프록시멀 업데이트를 적용하는 확률적 알고리즘을 제안한다.
한 구성 요소 함수의 그라디언트에 대한 허더링 연속성 매개변수 ν에 따라 적응적인 스텝 사이즈 전략을 도입하여, 부드러움 조건이 없더라도 수렴 가능하도록 한다.
편향 없는 그라디언트 추정치를 고정밀도로 요구하지 않기 때문에 큰 미니배치를 피하는 확률적 근사 기법을 사용한다.
h(x)의 선형화를 통해 볼록 하위문제를 구성하고, 적응 가능한 파rameter를 갖는 확률적 프록시멀 그라디언트 단계로 해결한다.
정규화 항 r(x)의 프록시멀 오퍼레이터를 활용하여, r(x)가 DC 함수로 분해되지 않더라도 비미분 가능 성분을 효율적으로 처리한다.
수렴 속도를 구성 요소 함수의 허더링 매개변수 ν ∈ (0,1]에 따라 자동으로 조정함으로써 문제 구성 요소의 규칙성에 적응한다.

실험 결과

연구 질문

RQ1큰 미니배치 크기가 필요로 하지 않는 방식으로 DC 함수에 대한 확률적 최적화를 실용적으로 개선할 수 있는가?
RQ2리프시츠 연속 그라디언트를 가정하지 않고도 비점근적 수렴을 달성할 수 있는가?
RQ3한 구성 요소 함수의 그라디언트에 대한 허더링 연속성에 따라 수렴 속도를 적응적으로 조정할 수 있는가?
RQ4DC 분해가 불가능한 일반적인 비볼록, 비미분 가능 정규화 항을 다룰 수 있도록 확률적 알고리즘을 확장할 수 있는가?
RQ5이러한 일반 정규화 항이 존재하는 상황에서, 확률적 최적화에 대해 첫 비점근적 수렴 보장은 무엇인가?

주요 결과

제안된 알고리즘은 구성 요소 함수의 그라디언트가 리프시츠 연속이 아님을 가정하지 않고도 비점근적 수렴을 달성한다.
수렴 속도는 한 구성 요소 함수의 그라디언트에 대한 허더링 연속성 매개변수 ν ∈ (0,1]에 자동으로 적응하여, 더 유연하고 성능이 향상된다.
고정밀도의 확률적 그라디언트 추정치가 필요로 하지 않기 때문에 큰 미니배치 크기를 피함으로써, 더 사용자 친화적이고 계산적으로 효율적이다.
DC 분해가 불가능한 비볼록, 비미분 가능 정규화 항을 갖는 문제에 대해서도 이 방법은 첫 비점근적 수렴 보장을 제공한다.
단일 알고리즘 파rameter만 조정함으로써 비미분 가능하고 비볼록 정규화 항에 대해 개선된 복잡도 상한을 유도할 수 있다.
MCP, SCAD, LSP 및 캡핑된 ℓ₁와 같은 인기 있는 비볼록 정규화 항의 DC 분해를 통해 이론적 분석의 타당성을 검증하였으며, 제안된 프레임워크와의 호환성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.