Skip to main content
QUICK REVIEW

[论文解读] A Survey of Optimization Methods from a Machine Learning Perspective

Shiliang Sun, Zehui Cao|arXiv (Cornell University)|Jun 17, 2019
Machine Learning and Data Classification参考文献 211被引用 44
一句话总结

这项综述从机器学习的视角对优化方法进行分类,讨论它们的优点、局限性和适用的应用情境,并强调 ML 优化中的挑战与待解问题。

ABSTRACT

Machine learning develops rapidly, which has made many theoretical breakthroughs and is widely applied in various fields. Optimization, as an important part of machine learning, has attracted much attention of researchers. With the exponential growth of data amount and the increase of model complexity, optimization methods in machine learning face more and more challenges. A lot of work on solving optimization problems or improving optimization methods in machine learning has been proposed successively. The systematic retrospect and summary of the optimization methods from the perspective of machine learning are of great significance, which can offer guidance for both developments of optimization and machine learning research. In this paper, we first describe the optimization problems in machine learning. Then, we introduce the principles and progresses of commonly used optimization methods. Next, we summarize the applications and developments of optimization methods in some popular machine learning fields. Finally, we explore and give some challenges and open problems for the optimization in machine learning.

研究动机与目标

  • 解释机器学习中的优化问题,覆盖监督学习、半监督学习、无监督学习和强化学习。
  • 系统性回顾在 ML 中使用的基本和最近的优化方法。
  • 讨论优化方法在深度神经网络、RL、元学习、变分推断和 MCMC 中的应用。
  • 指出面向 ML 的优化中的挑战与未解问题,以指导未来研究。

提出的方法

  • 按梯度信息对优化方法进行分类:一阶、高阶和无导数。
  • 讨论预条件化及其在加速收敛中的作用。
  • 描述代表性算法(例如 SGD 及其变体、动量、Nesterov、AdaGrad/Adam、方差降低方法)。
  • 解释大型 ML 问题中收敛速度、计算成本和可扩展性之间的权衡。
  • 将优化方法与 ML 应用联系起来,如 DNNs、RL、元学习、变分推断和 MCMC。

实验结果

研究问题

  • RQ1哪些是与机器学习最相关的基本和现代优化方法,它们的优点与局限性是什么?
  • RQ2优化技术在关键 ML 范式(监督学习、无监督学习、强化学习、贝叶斯推断)中的表现如何,哪些配置最有效?
  • RQ3ML 优化领域尚存的挑战和待解决的问题有哪些,值得进一步研究?

主要发现

  • 一阶方法(如 SGD 及其变体)在 ML 中仍占主导地位,原因在于可扩展性,且加速和方差减小技术提升了收敛性。
  • 当利用曲率信息时,高阶方法提供更快的收敛,但面临实际挑战,如 Hessian 的存储和计算。
  • 当导数不可用或代价高时,导数无关方法很有用,可以补充基于梯度的方法。
  • 自适应学习率方法(AdaGrad、RMSProp、Adam)提供实际性能提升并减少手动调参,通常优于固定学习率策略。
  • 方差降低技术(例如 SAG)通过减少 SGD 的梯度噪声实现更快的收敛。
  • 优化在 ML 各领域中起着关键作用,包括深度神经网络、强化学习、元学习、变分推断和 MCMC,并且针对每个领域有特定方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。