QUICK REVIEW

[논문 리뷰] Stochastic Zeroth-order Optimization via Variance Reduction method

Liu Liu, Minhao Cheng|arXiv (Cornell University)|2018. 05. 30.

Stochastic Gradient Optimization Techniques참고 문헌 17인용 수 18

한 줄 요약

이 논문은 고차원 블랙박스 최적화 문제를 해결하기 위해 가우시안 스무딩을 사용한 분산 감소 기법을 적용한 새로운 스토하스틱 제로스오더 최적화 방법인 SZVR-G를 제안한다. 샘플링과 탐색 방향 양쪽에서 분산을 감소시킴으로써 차원 $d$에 대한 비선형 의존도를 달성하여, 이전 방법들인 RGF와 RSG보다 더 엄격히 우수한 쿼리 복잡도 $O(d^{5/3}B^{1/3}/\varepsilon^{11/3})$를 확보한다. 이는 매끄럽고 비매끄러운 설정 모두에서 성능 향상을 이룬다.

ABSTRACT

Derivative-free optimization has become an important technique used in machine learning for optimizing black-box models. To conduct updates without explicitly computing gradient, most current approaches iteratively sample a random search direction from Gaussian distribution and compute the estimated gradient along that direction. However, due to the variance in the search direction, the convergence rates and query complexities of existing methods suffer from a factor of $d$, where $d$ is the problem dimension. In this paper, we introduce a novel Stochastic Zeroth-order method with Variance Reduction under Gaussian smoothing (SZVR-G) and establish the complexity for optimizing non-convex problems. With variance reduction on both sample space and search space, the complexity of our algorithm is sublinear to $d$ and is strictly better than current approaches, in both smooth and non-smooth cases. Moreover, we extend the proposed method to the mini-batch version. Our experimental results demonstrate the superior performance of the proposed method over existing derivative-free optimization techniques. Furthermore, we successfully apply our method to conduct a universal black-box attack to deep neural networks and present some interesting results.

연구 동기 및 목표

무작위 탐색 방향에서의 $d$-의존성 분산으로 인해 기존의 도함수 기반 최적화 방법의 쿼리 복잡도가 높아지는 문제를 해결한다.
샘플 공간과 탐색 방향 공간 양쪽에서 작동하는 분산 감소 프레임워크를 개발하여 스토하스틱 제로스오더 최적화에 적용한다.
비볼록 최적화에서 차원 $d$에 대해 비선형적으로 증가하는 수렴 속도와 쿼리 복잡도를 달성한다.
작업 크기 $B$에 대해 쿼리 복잡도가 비선형적으로 증가하는 미니배치 설정으로 방법을 확장한다.
심층 신경망에 대한 유니버설 블랙박스 대비 공격에 응용하여 실용적 유용성을 입증한다.

제안 방법

각 에포크마다 고정된 가우시안 랜덤 벡터 집합을 유지하여 평균 기울기 방향을 추정함으로써 탐색 방향의 분산을 감소시키는 이중 수준의 분산 감소 기법을 도입한다.
무작위 방향을 따라 유한 차분을 사용해 기울기를 추정하기 위해 스토하스틱 제로스오더 오라클(SZO)을 사용한다: $ G_\mu(x,u,\xi) = \frac{F(x+\mu u,\xi) - F(x,\xi)}{\mu} u $.
반복 간에 기울기 추정치를 재사용함으로써 제로스오더 설정에 제1차 최적화 기법(예: SVRG)의 분산 감소 기법을 적용한다.
외부 루프는 $D$개의 가우시안 벡터 집합에 대해 평균 기울기를 주기적으로 재계산하고, 내부 루프는 이 집합에서 샘플을 추출하여 업데이트를 계산한다.
다중 샘플을 한 번의 반복에 처리하는 미니배치 변형을 도입하며, 이 경우 쿼리 복잡도는 배치 크기 $B$에 대해 비선형적으로 증가한다.
수렴이 $\|\nabla f(x)\|^2 \leq \varepsilon^2$가 되도록 보장하기 위해 단계 크기 $\eta$, 스무딩 파라미터 $\mu$, 반복 수 $K$에 대한 이론적 경계를 유도한다.

실험 결과

연구 질문

RQ1제1차 최적화에서의 분산 감소 기법을 제로스오더 스토하스틱 최적화에 적응시켜 $d$-의존성을 줄일 수 있는가?
RQ2고차원 제로스오더 최적화에서 쿼리 복잡도를 최소화하기 위해 에포크당 가우시안 벡터 집합의 최적 크기 $D$는 얼마인가?
RQ3매끄럽고 비매끄러운 비볼록 문제 모두에서 제안된 방법은 RGF와 RSG에 비해 쿼리 복잡도에서 어떻게 비교되는가?
RQ4작업 크기의 비선형 증가에 따라 쿼리 복잡도가 비선형적으로 증가하는 미니배치 설정으로 방법을 효과적으로 확장할 수 있는가?
RQ5낮은 쿼리 비용 덕분에 심층 신경망에 대한 더 효율적인 블랙박스 대비 공격이 가능해지는가?

주요 결과

제안된 SZVR-G 방법은 $O(d^{5/3}B^{1/3}/\varepsilon^{11/3})$의 쿼리 복잡도를 달성하여, 이는 $d$에 대해 엄격히 비선형이며 RGF와 RSG보다 뛰어나다.
샘플 공간과 탐색 방향 공간 양쪽에서 분산 감소를 적용함으로써 수렴 속도에서 $d$ 요소를 감소시킨다.
미니배치 변형의 경우, 쿼리 복잡도는 배치 크기 $B$에 대해 비선형적으로 증가하지만, RGF와 RSG는 선형적으로 증가한다.
이론적 분석을 통해 최적 단계 크기 $\eta = O(\varepsilon^{5/3}/(d^{5/3}B^{1/3}))$와 스무딩 파라미터 $\mu \leq O(\varepsilon/(L_0 d^{1/2}))$ 조건 하에 $\|\nabla f(x)\|^2 \leq \varepsilon^2$로 수렴함을 확인하였다.
실험 결과, 로지스틱 회귀에서 뛰어난 성능을 보였고, 심층 신경망에 대한 유니버설 블랙박스 공격에 성공적으로 적용되어 더 적은 쿼리로도 효과를 달성하였다.
더 큰 미니배치 크기로 인해 총 반복 수가 감소하고 쿼리 비용이 비선형적으로 증가함에 따라, 더 나은 병렬 처리 가능성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.