[논문 리뷰] ZO-AdaMM: Zeroth-Order Adaptive Momentum Method for Black-Box Optimization
ZO-AdaMM은 제로스오더(gradient-free) 최적화에 적응형 모멘텀 방법을 확장하고, Mahalanobis-distance 투영의 수렴 분석을 제시하며, ImageNet에서 여섯 가지 최첨단 ZO 방법과 비교하여 블랙박스 적대적 공격에서 더 빠른 수렴을 보여준다.
The adaptive momentum method (AdaMM), which uses past gradients to update descent directions and learning rates simultaneously, has become one of the most popular first-order optimization methods for solving machine learning problems. However, AdaMM is not suited for solving black-box optimization problems, where explicit gradient forms are difficult or infeasible to obtain. In this paper, we propose a zeroth-order AdaMM (ZO-AdaMM) algorithm, that generalizes AdaMM to the gradient-free regime. We show that the convergence rate of ZO-AdaMM for both convex and nonconvex optimization is roughly a factor of $O(\sqrt{d})$ worse than that of the first-order AdaMM algorithm, where $d$ is problem size. In particular, we provide a deep understanding on why Mahalanobis distance matters in convergence of ZO-AdaMM and other AdaMM-type methods. As a byproduct, our analysis makes the first step toward understanding adaptive learning rate methods for nonconvex constrained optimization. Furthermore, we demonstrate two applications, designing per-image and universal adversarial attacks from black-box neural networks, respectively. We perform extensive experiments on ImageNet and empirically show that ZO-AdaMM converges much faster to a solution of high accuracy compared with $6$ state-of-the-art ZO optimization methods.
연구 동기 및 목표
- AdaMM을 제로차(그래디언트-프리) 영역의 제약 최적화로 확장한다.
- Mahalanobis projection으로 비볼록 및 제약 설정에 대한 수렴 분석을 제공한다.
- 차원 d가 수렴에 미치는 영향을 정량화하고 최첨단 ZO 방법과 비교한다.
- ImageNet의 블랙박스 적대적 공격에서의 실용적 효과를 보여준다.
제안 방법
- 랜덤 단위 방향으로의 순전파 차분을 이용한 제로차 그래디언트 추정기를 정의한다.
- 추정기를 모멘텀과 적응 학습률(AMSGrad 유형 업데이트)과 함께 AdaMM 프레임워크에 통합한다.
- 수렴을 보장하는 제약 설정에서 가능한 집합으로의 마할라노비스-거리 기반 투영을 적용한다.
- 변환된 좌표와 연결되는 수렴 지표로서 마할라노비스-거리 기반 그래디언트 매핑을 도입한다.
- 비볼록 무제한 및 제약 사례에 대한 이론적 수렴 결과를 제공하고, 제약 문제에서 투영 편향을 다루기 위한 분산 감소 추정기를 논의한다.
- ImageNet에서의 블랙박스 적대적 공격 태스크에서 ZO-AdaMM을 여섯 가지 최첨단 ZO 방법과 비교한다.
실험 결과
연구 질문
- RQ1적응형 모멘텀 방법을 제로차(그래디언트 프리) 최적화로 일반화하는 방법은 무엇인가?
- RQ2제약 하에서 ZO-AdaMM의 수렴에 있어 Mahalanobis-distance 기반 투영은 어떤 역할을 하는가?
- RQ3무제한 비볼록 최적화 및 제약 조건에서 ZO-AdaMM의 수렴 속도는 어떻게 되며 문제 차원 d에 따라 어떻게 확장되는가?
- RQ4기존의 ZO 방법들과 비교했을 때 ZO-AdaMM은 이미지당 및 보편적 섭 perturbation 태스크에서 실제 블랙박스 문제에서 어떻게 성능을 발휘하는가?
주요 결과
- ZO-AdaMM은 비볼록 설정에서 1차 AdaMM보다 수렴 속도가 대략 O(sqrt(d)) 만큼 느려지는 차원 의존적인 지연을 보인다.
- 마할라노비스-거리 기반 투영은 수렴을 위해 필요하며, 유클리드 투영은 제약 문제에서 수렴을 일으키지 못할 수 있다.
- 적절한 파라미터 선택으로 ZO-AdaMM은 비볼록 수렴 보장을 달성하고 차원 d와 함께 제어된 방식으로 확장된다.
- ImageNet의 블랙박스 적대적 공격에서 ZO-AdaMM은 높은 정확도 솔루션으로 더 빠르게 수렴하고 여섯 가지 경쟁 ZO 방법보다 per-image 및 보편적 교란 작업에서 더 작은 노이즈를 생성한다.
- 해당 분석은 등가적으로 변환된(y-좌표) 그래디언트 하강 시각으로 연결되는 마할라노비스 기반 수렴 지표를 도입해 비볼록 제약 분석을 보조한다.
- 분산 감소를 통해 제약 ZO 최적화에서 투영으로 인한 편향을 추가로 완화할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.