QUICK REVIEW

[논문 리뷰] Projection-Free Online Optimization with Stochastic Gradient: From Convexity to Submodularity

Lin Chen, Christopher Harshaw|arXiv (Cornell University)|2018. 02. 22.

Stochastic Gradient Optimization Techniques인용 수 33

한 줄 요약

이 논문은 볼록 함수 및 연속적인 DR-하위모듈러 함수에 대해 확률적 그래디언트 추정치를 사용하는, 투영 자유 온라인 최적화 알고리즘으로서 Meta-Frank-Wolfe와 One-Shot Frank-Wolfe를 소개한다. 분산 감소 및 효율적인 선형 최적화를 활용하여, 각각 $O(\sqrt{T})$의 악성 대비 정규화 오차와 $O(T^{2/3})$의 확률적 정규화 오차를 달성하며, 뉴스 선택, 네트워크 플로우, 행렬 완성 등의 실험에서 최신 기준보다 뛰어난 성능을 보였다.

ABSTRACT

Online optimization has been a successful framework for solving large-scale problems under computational constraints and partial information. Current methods for online convex optimization require either a projection or exact gradient computation at each step, both of which can be prohibitively expensive for large-scale applications. At the same time, there is a growing trend of non-convex optimization in machine learning community and a need for online methods. Continuous DR-submodular functions, which exhibit a natural diminishing returns condition, have recently been proposed as a broad class of non-convex functions which may be efficiently optimized. Although online methods have been introduced, they suffer from similar problems. In this work, we propose Meta-Frank-Wolfe, the first online projection-free algorithm that uses stochastic gradient estimates. The algorithm relies on a careful sampling of gradients in each round and achieves the optimal $O( \\sqrt{T})$ adversarial regret bounds for convex and continuous submodular optimization. We also propose One-Shot Frank-Wolfe, a simpler algorithm which requires only a single stochastic gradient estimate in each round and achieves an $O(T^{2/3})$ stochastic regret bound for convex and continuous submodular optimization. We apply our methods to develop a novel "lifting" framework for the online discrete submodular maximization and also see that they outperform current state-of-the-art techniques on various experiments.

연구 동기 및 목표

부분 정보가 있는 대규모 설정에서 투영 기반 온라인 최적화의 계산 비효율성을 해결한다.
기존의 투영 자유 방법이 정확한 그래디언트 계산을 필요로 하여 실무에서 비용이 많이 들거나 불가능한 점을 극복한다.
머신 러닝에서 증가하는 문제 유형인 비볼록이지만 하위모듈러 최적화를 위한 효율적인 온라인 알고리즘을 개발한다.
투영 없이 단지 선형 최적화 또는 단일 그래디언트 샘플을 사용하여 온라인 환경에서 확률적 그래디언트 기반 최적화를 가능하게 한다.
볼록 및 연속적인 DR-하위모듈러 최적화에 대해 이론적 정규화 오차 경계와 실용적인 알고리즘을 제공한다.

제안 방법

각 라운드에서 다수의 확률적 그래디언트 샘플을 사용하여 분산을 줄이고 $O(\sqrt{T})$의 정규화 오차를 달성하는 투영 자유 온라인 알고리즘인 Meta-Frank-Wolfe를 제안한다.
각 라운드에서 단일 확률적 그래디언트 추정치만 사용하는 더 단순한 변형인 One-Shot Frank-Wolfe를 도입하며, $O(T^{2/3})$의 정규화 오차를 달성한다.
Mokhtari 등 (2018)의 평균화 기법을 활용하여 온라인 확률적 환경에서 그래디언트 분산을 감소시킨다.
투영 대신 제약 집합 위에서의 선형 최적화를 사용하여 복잡한 제약 조건이 있는 대규모 문제에 대한 확장성을 확보한다.
연속 하위모듈러 최적화를 이산 온라인 하위모듈러 최대화로 확장하기 위해 새로운 리프팅 프레임워크를 개발한다.
이산 하위모듈러 함수를 연속 공간에서 효율적으로 최적화하기 위해 다중선형 확장을 적용한다.

실험 결과

연구 질문

RQ1확률적 그래디언트 추정치에 대해 강건하면서도 최적의 정규화 오차 경계를 유지할 수 있는 투영 자유 온라인 최적화가 가능한가?
RQ2분산 감소된 확률적 그래디언트 방법과 비볼록 하위모듈러 목표 함수에 적합한 Frank-Wolfe 스타일의 선형 최적화를 효과적으로 융합할 수 있는가?
RQ3각 라운드에서 단일 확률적 그래디언트 샘플만 사용하는 투영 자유 알고리즘의 이론적 정규화 성능는 어떠한가?
RQ4실제 문제에 대해 기존의 온라인 알고리즘과 비교했을 때 이들 방법은 정규화 오차와 계산 효율성 측면에서 어떻게 다른가?
RQ5이산 하위모듈러 함수의 연속적 근사화가 온라인 확률적 환경에서 효과적으로 활용될 수 있는가?

주요 결과

Meta-Frank-Wolfe는 분산 감소를 통해 볼록 및 연속적인 DR-하위모듈러 함수에 대해 확률적 그래디언트를 사용하여 $O(\sqrt{T})$의 악성 대비 정규화 오차를 달성한다.
One-Shot Frank-Wolfe는 각 라운드에서 단일 그래디언트 샘플만 사용하여 $O(T^{2/3})$의 확률적 정규화 오차를 달성하며, 강력한 이론적 보장을 제공하는 더 단순한 대안을 제공한다.
분산 감소 기법을 적용한 Meta-Frank-Wolfe는 뉴스 주제 커버리지, 네트워크 플로우, 행렬 완성 작업에서 모든 기준보다 정규화 오차 측면에서 뛰어난 성능을 보였다.
분산 감소 기법이 적용되지 않은 Meta-Frank-Wolfe의 비버전조차도 다른 비분산 감소 기법을 적용한 방법보다 뛰어나, 알고리즘 설계의 유용성을 확인한다.
분산 감소 기법을 적용한 OS-Frank-Wolfe는 비분산 감소 기법을 적용한 대안보다 더 낮은 정규화 오차를 달성하여, 분산 감소 기법의 효과성을 검증한다.
분산 감소 기법을 적용한 Meta-Frank-Wolfe는 SVD 투영을 피하기 때문에 OGD보다 다섯 배 빠르며, 경쟁 가능한 정규화 오차를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.