QUICK REVIEW

[논문 리뷰] ZO-AdaMM: Zeroth-Order Adaptive Momentum Method for Black-Box Optimization

Xiangyi Chen, Sijia Liu|arXiv (Cornell University)|2019. 10. 15.

Stochastic Gradient Optimization Techniques인용 수 34

한 줄 요약

ZO-AdaMM은 제로스오더(gradient-free) 최적화에 적응형 모멘텀 방법을 확장하고, Mahalanobis-distance 투영의 수렴 분석을 제시하며, ImageNet에서 여섯 가지 최첨단 ZO 방법과 비교하여 블랙박스 적대적 공격에서 더 빠른 수렴을 보여준다.

ABSTRACT

The adaptive momentum method (AdaMM), which uses past gradients to update descent directions and learning rates simultaneously, has become one of the most popular first-order optimization methods for solving machine learning problems. However, AdaMM is not suited for solving black-box optimization problems, where explicit gradient forms are difficult or infeasible to obtain. In this paper, we propose a zeroth-order AdaMM (ZO-AdaMM) algorithm, that generalizes AdaMM to the gradient-free regime. We show that the convergence rate of ZO-AdaMM for both convex and nonconvex optimization is roughly a factor of $O(\sqrt{d})$ worse than that of the first-order AdaMM algorithm, where $d$ is problem size. In particular, we provide a deep understanding on why Mahalanobis distance matters in convergence of ZO-AdaMM and other AdaMM-type methods. As a byproduct, our analysis makes the first step toward understanding adaptive learning rate methods for nonconvex constrained optimization. Furthermore, we demonstrate two applications, designing per-image and universal adversarial attacks from black-box neural networks, respectively. We perform extensive experiments on ImageNet and empirically show that ZO-AdaMM converges much faster to a solution of high accuracy compared with $6$ state-of-the-art ZO optimization methods.

연구 동기 및 목표

AdaMM을 제로차(그래디언트-프리) 영역의 제약 최적화로 확장한다.
Mahalanobis projection으로 비볼록 및 제약 설정에 대한 수렴 분석을 제공한다.
차원 d가 수렴에 미치는 영향을 정량화하고 최첨단 ZO 방법과 비교한다.
ImageNet의 블랙박스 적대적 공격에서의 실용적 효과를 보여준다.

제안 방법

랜덤 단위 방향으로의 순전파 차분을 이용한 제로차 그래디언트 추정기를 정의한다.
추정기를 모멘텀과 적응 학습률(AMSGrad 유형 업데이트)과 함께 AdaMM 프레임워크에 통합한다.
수렴을 보장하는 제약 설정에서 가능한 집합으로의 마할라노비스-거리 기반 투영을 적용한다.
변환된 좌표와 연결되는 수렴 지표로서 마할라노비스-거리 기반 그래디언트 매핑을 도입한다.
비볼록 무제한 및 제약 사례에 대한 이론적 수렴 결과를 제공하고, 제약 문제에서 투영 편향을 다루기 위한 분산 감소 추정기를 논의한다.
ImageNet에서의 블랙박스 적대적 공격 태스크에서 ZO-AdaMM을 여섯 가지 최첨단 ZO 방법과 비교한다.

실험 결과

연구 질문

RQ1적응형 모멘텀 방법을 제로차(그래디언트 프리) 최적화로 일반화하는 방법은 무엇인가?
RQ2제약 하에서 ZO-AdaMM의 수렴에 있어 Mahalanobis-distance 기반 투영은 어떤 역할을 하는가?
RQ3무제한 비볼록 최적화 및 제약 조건에서 ZO-AdaMM의 수렴 속도는 어떻게 되며 문제 차원 d에 따라 어떻게 확장되는가?
RQ4기존의 ZO 방법들과 비교했을 때 ZO-AdaMM은 이미지당 및 보편적 섭 perturbation 태스크에서 실제 블랙박스 문제에서 어떻게 성능을 발휘하는가?

주요 결과

ZO-AdaMM은 비볼록 설정에서 1차 AdaMM보다 수렴 속도가 대략 O(sqrt(d)) 만큼 느려지는 차원 의존적인 지연을 보인다.
마할라노비스-거리 기반 투영은 수렴을 위해 필요하며, 유클리드 투영은 제약 문제에서 수렴을 일으키지 못할 수 있다.
적절한 파라미터 선택으로 ZO-AdaMM은 비볼록 수렴 보장을 달성하고 차원 d와 함께 제어된 방식으로 확장된다.
ImageNet의 블랙박스 적대적 공격에서 ZO-AdaMM은 높은 정확도 솔루션으로 더 빠르게 수렴하고 여섯 가지 경쟁 ZO 방법보다 per-image 및 보편적 교란 작업에서 더 작은 노이즈를 생성한다.
해당 분석은 등가적으로 변환된(y-좌표) 그래디언트 하강 시각으로 연결되는 마할라노비스 기반 수렴 지표를 도입해 비볼록 제약 분석을 보조한다.
분산 감소를 통해 제약 ZO 최적화에서 투영으로 인한 편향을 추가로 완화할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.