Skip to main content
QUICK REVIEW

[论文解读] Learning to Learn by Zeroth-Order Oracle

Yangjun Ruan, Yuanhao Xiong|arXiv (Cornell University)|Apr 30, 2020
Adversarial Robustness in Machine Learning参考文献 22被引用 4
一句话总结

该论文提出了一种零阶(ZO)优化框架,利用循环神经网络(RNN)通过ZO估计器近似梯度,并动态引导采样方向。该方法在Z0任务(包括黑箱对抗攻击)中,相较于手工设计的算法,在收敛速度和解的质量方面表现更优。

ABSTRACT

In the learning to learn (L2L) framework, we cast the design of optimization algorithms as a machine learning problem and use deep neural networks to learn the update rules. In this paper, we extend the L2L framework to zeroth-order (ZO) optimization setting, where no explicit gradient information is available. Our learned optimizer, modeled as recurrent neural network (RNN), first approximates gradient by ZO gradient estimator and then produces parameter update utilizing the knowledge of previous iterations. To reduce high variance effect due to ZO gradient estimator, we further introduce another RNN to learn the Gaussian sampling rule and dynamically guide the query direction sampling. Our learned optimizer outperforms hand-designed algorithms in terms of convergence rate and final solution on both synthetic and practical ZO optimization tasks (in particular, the black-box adversarial attack task, which is one of the most widely used tasks of ZO optimization). We finally conduct extensive analytical experiments to demonstrate the effectiveness of our proposed optimizer.

研究动机与目标

  • 为解决在梯度不可用的零阶设置下学习优化算法的挑战。
  • 通过学习自适应更新规则,提升Z0优化中的收敛性和解的质量。
  • 通过学习的采样策略,降低Z0梯度估计中的高方差。
  • 将元学习范式扩展至黑箱优化场景,如对抗攻击。

提出的方法

  • 使用Z0梯度估计器作为代理梯度,训练一个主RNN以学习参数更新规则。
  • Z0梯度估计器通过使用随机扰动的有限差分来近似梯度。
  • 引入一个次级RNN,以学习并自适应调整高斯采样规则,从而降低方差。
  • 两个RNN联合训练,以提升更新精度和收敛稳定性。
  • 该框架端到端应用于Z0优化任务,包括黑箱对抗攻击。
  • 模型利用先前迭代的内存信息来指导当前更新,实现时间上的泛化。

实验结果

研究问题

  • RQ1基于Z0梯度的元优化器是否能在收敛性和解的质量方面超越手工设计的算法?
  • RQ2所提出方法在降低Z0梯度估计方差方面的有效性如何?
  • RQ3所学习的采样策略是否能提升在黑箱优化任务(如对抗攻击)中的性能?
  • RQ4基于RNN的元优化器在多样化Z0优化任务中的泛化能力如何?

主要发现

  • 所提出的优化器在合成数据和真实世界Z0任务中,相较于标准Z0算法,实现了更快的收敛速度。
  • 该方法在黑箱对抗攻击场景中,取得了更优的最终解质量。
  • 所学习的采样规则显著降低了Z0梯度估计的方差,提升了训练稳定性。
  • 两个RNN的联合使用——第一个用于学习更新规则,第二个用于采样引导——带来了更鲁棒的优化性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。