QUICK REVIEW

[論文レビュー] ZO-AdaMM: Zeroth-Order Adaptive Momentum Method for Black-Box Optimization

Xiangyi Chen, Sijia Liu|arXiv (Cornell University)|Oct 15, 2019

Stochastic Gradient Optimization Techniques被引用数 34

ひとこと要約

ZO-AdaMMはゼロ次（勾配なし）最適化のために適応モーメント法を拡張し、収束のためのマハラノビス距離プロジェクションを分析し、ImageNetにおける六つの最先端ZO法と比較してブラックボックス敵対的攻撃でより速い収束を実証する。

ABSTRACT

The adaptive momentum method (AdaMM), which uses past gradients to update descent directions and learning rates simultaneously, has become one of the most popular first-order optimization methods for solving machine learning problems. However, AdaMM is not suited for solving black-box optimization problems, where explicit gradient forms are difficult or infeasible to obtain. In this paper, we propose a zeroth-order AdaMM (ZO-AdaMM) algorithm, that generalizes AdaMM to the gradient-free regime. We show that the convergence rate of ZO-AdaMM for both convex and nonconvex optimization is roughly a factor of $O(\sqrt{d})$ worse than that of the first-order AdaMM algorithm, where $d$ is problem size. In particular, we provide a deep understanding on why Mahalanobis distance matters in convergence of ZO-AdaMM and other AdaMM-type methods. As a byproduct, our analysis makes the first step toward understanding adaptive learning rate methods for nonconvex constrained optimization. Furthermore, we demonstrate two applications, designing per-image and universal adversarial attacks from black-box neural networks, respectively. We perform extensive experiments on ImageNet and empirically show that ZO-AdaMM converges much faster to a solution of high accuracy compared with $6$ state-of-the-art ZO optimization methods.

研究の動機と目的

AdaMMをゼロ次元（勾配なし）領域の制約付き最適化へ拡張する。
マハラノビス投影を用いた非凍結化設定での収束分析を提供する。
次元dが収束に与える影響を定量化し、最先端のZO法と比較する。
ImageNetのブラックボックス敵対的攻撃で実用的有効性を示す。

提案手法

ランダム単位方向に沿った前向き差分を用いたゼロ次勾配推定量を定義する。
推定器をモーメンタムと適応学習率（AMSGrad型更新）を備えたAdaMMフレームワークに組み込む。
収束性を確保するために有界集合へのマハラノビス距離ベースの射影を用いる。
変換座標へ接続する収束指標としてマハラノビス距離ベースの勾配写像を導入する。
非凍結・凍結の両方のケースに対する理論的収束結果を提供し、凍結問題における射影バイアスを扱うための分散削減推定量を議論する。
ZO-AdaMMをImageNetのブラックボックス敵対的攻撃タスクで六つの最先端ZO法と比較する。

実験結果

リサーチクエスチョン

RQ1適応モーメント法をゼロ次（勾配なし）最適化へ Generalizeする方法は？
RQ2制約下でのZO-AdaMMの収束におけるマハラノビス距離ベースの射影の役割は？
RQ3凍結なしおよび凍結ありの非凍結非凸最適化におけるZO-AdaMMの収束速度はどのくらいで、問題の次元dとどのようにスケールするか？
RQ4従来のZO法と比較して、ブラックボックス問題（敵対的攻撃など）でZO-AdaMMは実務的にどう機能するか？

主な発見

ZO-AdaMMは非凸設定で第一階のAdaMMより概ねO(sqrt(d))だけ遅い収束速度を達成し、次元依存の低下を強調している。
マハラノビス距離ベースの射影は収束に必要であり、ユークリッド射影は制約問題で収束を引き起こす可能性がある。
適切なパラメータ選択により、ZO-AdaMMは非凍結収束保証を得て、次元dに対して制御された方法でスケールする。
ImageNetのブラックボックス敵対的攻撃において、ZO-AdaMMは高精度解への収束が速く、per-imageおよびユニバーサル摂動タスクで6つの競合ZO法より小さな摂動を生み出す。
解析にはマハラノビスベースの収束指標を導入し、等価な変換後の(y座標)勾配降下ビューへ接続して非凸制約分析を補助している。
分散削減は制約付きZO最適化における射影誘発バイアスをさらに緩和できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。