QUICK REVIEW

[論文レビュー] Learning to Learn by Zeroth-Order Oracle

Yangjun Ruan, Yuanhao Xiong|arXiv (Cornell University)|Apr 30, 2020

Adversarial Robustness in Machine Learning参考文献 22被引用数 4

ひとこと要約

本稿では、勾配が利用できないゼロ次順序（ZO）設定において、勾配をZO推定器を用いて近似し、動的サンプリング方向を制御する再帰的ニューラルネットワーク（RNN）を用いて、学習する最適化フレームワークを提案する。本手法は、ブラックボックスの敵対的攻撃を含むZOタスクにおいて、収束速度と解の品質の面で手作業で設計されたアルゴリズムを上回る性能を発揮する。

ABSTRACT

In the learning to learn (L2L) framework, we cast the design of optimization algorithms as a machine learning problem and use deep neural networks to learn the update rules. In this paper, we extend the L2L framework to zeroth-order (ZO) optimization setting, where no explicit gradient information is available. Our learned optimizer, modeled as recurrent neural network (RNN), first approximates gradient by ZO gradient estimator and then produces parameter update utilizing the knowledge of previous iterations. To reduce high variance effect due to ZO gradient estimator, we further introduce another RNN to learn the Gaussian sampling rule and dynamically guide the query direction sampling. Our learned optimizer outperforms hand-designed algorithms in terms of convergence rate and final solution on both synthetic and practical ZO optimization tasks (in particular, the black-box adversarial attack task, which is one of the most widely used tasks of ZO optimization). We finally conduct extensive analytical experiments to demonstrate the effectiveness of our proposed optimizer.

研究の動機と目的

勾配が利用できないゼロ次順序設定における最適化アルゴリズムの学習という課題に取り組む。
学習可能な適応的更新ルールを用いることで、ZO最適化における収束性と解の品質を向上させる。
学習されたサンプリング戦略により、ZO勾配推定における高い分散を低減する。
学習する最適化（learning-to-learn）の枠組みを、敵対的攻撃などのブラックボックス最適化シナリオに拡張する。

提案手法

主となるRNNを訓練し、ZO勾配推定器を代替勾配として用いてパラメータ更新ルールを学習する。
ZO勾配推定器は、ランダムな摂動を用いた有限差分法により勾配を近似する。
副次的なRNNを導入し、クエリ方向のためのガウス分布サンプリングルールを学習・適応させ、分散を低減する。
2つのRNNを共同で訓練することで、更新の正確性と収束安定性を向上させる。
フレームワークは、ブラックボックスの敵対的攻撃を含むZO最適化タスクにエンドツーエンドで適用する。
直前の反復からの記憶を活用することで、現在の更新を決定し、時間的一般化を可能にする。

実験結果

リサーチクエスチョン

RQ1ZO勾配に基づく学習された最適化手法は、収束性と解の品質において、手作業で設計された手法を上回ることができるか？
RQ2提案手法は、ZO勾配推定における分散低減にどの程度効果的か？
RQ3学習されたサンプリング戦略は、敵対的攻撃などのブラックボックス最適化タスクにおける性能向上に寄与するか？
RQ4RNNベースの最適化手法は、多様なZO最適化タスクにどの程度一般化できるか？

主な発見

提案された最適化手法は、合成的および実世界のZOタスクにおいて、標準的なZOアルゴリズムと比較してより速い収束速度を達成する。
特にブラックボックスの敵対的攻撃のシナリオにおいて、優れた最終的な解の品質を達成する。
学習されたサンプリングルールは、ZO勾配推定における分散を顕著に低減し、学習の安定性を向上させる。
まず更新ルールの学習に用いられ、次にサンプリングのガイドラインを提供する2つのRNNを併用することで、より頑健な最適化性能が得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。