Skip to main content
QUICK REVIEW

[논문 리뷰] Projection-Free Online Optimization with Stochastic Gradient: From Convexity to Submodularity

Lin Chen, Christopher Harshaw|arXiv (Cornell University)|2018. 02. 22.
Stochastic Gradient Optimization Techniques인용 수 33
한 줄 요약

이 논문은 볼록 함수 및 연속적인 DR-하위모듈러 함수에 대해 확률적 그래디언트 추정치를 사용하는, 투영 자유 온라인 최적화 알고리즘으로서 Meta-Frank-Wolfe와 One-Shot Frank-Wolfe를 소개한다. 분산 감소 및 효율적인 선형 최적화를 활용하여, 각각 $O(\sqrt{T})$의 악성 대비 정규화 오차와 $O(T^{2/3})$의 확률적 정규화 오차를 달성하며, 뉴스 선택, 네트워크 플로우, 행렬 완성 등의 실험에서 최신 기준보다 뛰어난 성능을 보였다.

ABSTRACT

Online optimization has been a successful framework for solving large-scale problems under computational constraints and partial information. Current methods for online convex optimization require either a projection or exact gradient computation at each step, both of which can be prohibitively expensive for large-scale applications. At the same time, there is a growing trend of non-convex optimization in machine learning community and a need for online methods. Continuous DR-submodular functions, which exhibit a natural diminishing returns condition, have recently been proposed as a broad class of non-convex functions which may be efficiently optimized. Although online methods have been introduced, they suffer from similar problems. In this work, we propose Meta-Frank-Wolfe, the first online projection-free algorithm that uses stochastic gradient estimates. The algorithm relies on a careful sampling of gradients in each round and achieves the optimal $O( \\sqrt{T})$ adversarial regret bounds for convex and continuous submodular optimization. We also propose One-Shot Frank-Wolfe, a simpler algorithm which requires only a single stochastic gradient estimate in each round and achieves an $O(T^{2/3})$ stochastic regret bound for convex and continuous submodular optimization. We apply our methods to develop a novel "lifting" framework for the online discrete submodular maximization and also see that they outperform current state-of-the-art techniques on various experiments.

연구 동기 및 목표

  • 부분 정보가 있는 대규모 설정에서 투영 기반 온라인 최적화의 계산 비효율성을 해결한다.
  • 기존의 투영 자유 방법이 정확한 그래디언트 계산을 필요로 하여 실무에서 비용이 많이 들거나 불가능한 점을 극복한다.
  • 머신 러닝에서 증가하는 문제 유형인 비볼록이지만 하위모듈러 최적화를 위한 효율적인 온라인 알고리즘을 개발한다.
  • 투영 없이 단지 선형 최적화 또는 단일 그래디언트 샘플을 사용하여 온라인 환경에서 확률적 그래디언트 기반 최적화를 가능하게 한다.
  • 볼록 및 연속적인 DR-하위모듈러 최적화에 대해 이론적 정규화 오차 경계와 실용적인 알고리즘을 제공한다.

제안 방법

  • 각 라운드에서 다수의 확률적 그래디언트 샘플을 사용하여 분산을 줄이고 $O(\sqrt{T})$의 정규화 오차를 달성하는 투영 자유 온라인 알고리즘인 Meta-Frank-Wolfe를 제안한다.
  • 각 라운드에서 단일 확률적 그래디언트 추정치만 사용하는 더 단순한 변형인 One-Shot Frank-Wolfe를 도입하며, $O(T^{2/3})$의 정규화 오차를 달성한다.
  • Mokhtari 등 (2018)의 평균화 기법을 활용하여 온라인 확률적 환경에서 그래디언트 분산을 감소시킨다.
  • 투영 대신 제약 집합 위에서의 선형 최적화를 사용하여 복잡한 제약 조건이 있는 대규모 문제에 대한 확장성을 확보한다.
  • 연속 하위모듈러 최적화를 이산 온라인 하위모듈러 최대화로 확장하기 위해 새로운 리프팅 프레임워크를 개발한다.
  • 이산 하위모듈러 함수를 연속 공간에서 효율적으로 최적화하기 위해 다중선형 확장을 적용한다.

실험 결과

연구 질문

  • RQ1확률적 그래디언트 추정치에 대해 강건하면서도 최적의 정규화 오차 경계를 유지할 수 있는 투영 자유 온라인 최적화가 가능한가?
  • RQ2분산 감소된 확률적 그래디언트 방법과 비볼록 하위모듈러 목표 함수에 적합한 Frank-Wolfe 스타일의 선형 최적화를 효과적으로 융합할 수 있는가?
  • RQ3각 라운드에서 단일 확률적 그래디언트 샘플만 사용하는 투영 자유 알고리즘의 이론적 정규화 성능는 어떠한가?
  • RQ4실제 문제에 대해 기존의 온라인 알고리즘과 비교했을 때 이들 방법은 정규화 오차와 계산 효율성 측면에서 어떻게 다른가?
  • RQ5이산 하위모듈러 함수의 연속적 근사화가 온라인 확률적 환경에서 효과적으로 활용될 수 있는가?

주요 결과

  • Meta-Frank-Wolfe는 분산 감소를 통해 볼록 및 연속적인 DR-하위모듈러 함수에 대해 확률적 그래디언트를 사용하여 $O(\sqrt{T})$의 악성 대비 정규화 오차를 달성한다.
  • One-Shot Frank-Wolfe는 각 라운드에서 단일 그래디언트 샘플만 사용하여 $O(T^{2/3})$의 확률적 정규화 오차를 달성하며, 강력한 이론적 보장을 제공하는 더 단순한 대안을 제공한다.
  • 분산 감소 기법을 적용한 Meta-Frank-Wolfe는 뉴스 주제 커버리지, 네트워크 플로우, 행렬 완성 작업에서 모든 기준보다 정규화 오차 측면에서 뛰어난 성능을 보였다.
  • 분산 감소 기법이 적용되지 않은 Meta-Frank-Wolfe의 비버전조차도 다른 비분산 감소 기법을 적용한 방법보다 뛰어나, 알고리즘 설계의 유용성을 확인한다.
  • 분산 감소 기법을 적용한 OS-Frank-Wolfe는 비분산 감소 기법을 적용한 대안보다 더 낮은 정규화 오차를 달성하여, 분산 감소 기법의 효과성을 검증한다.
  • 분산 감소 기법을 적용한 Meta-Frank-Wolfe는 SVD 투영을 피하기 때문에 OGD보다 다섯 배 빠르며, 경쟁 가능한 정규화 오차를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.