QUICK REVIEW

[論文レビュー] A Survey of Optimization Methods from a Machine Learning Perspective

Shiliang Sun, Zehui Cao|arXiv (Cornell University)|Jun 17, 2019

Machine Learning and Data Classification参考文献 211被引用数 44

ひとこと要約

この調査は機械学習の視点から最適化手法を分類し、その利点・制限・適用文脈を論じ、ML最適化の課題と未解決の問題を強調する。

ABSTRACT

Machine learning develops rapidly, which has made many theoretical breakthroughs and is widely applied in various fields. Optimization, as an important part of machine learning, has attracted much attention of researchers. With the exponential growth of data amount and the increase of model complexity, optimization methods in machine learning face more and more challenges. A lot of work on solving optimization problems or improving optimization methods in machine learning has been proposed successively. The systematic retrospect and summary of the optimization methods from the perspective of machine learning are of great significance, which can offer guidance for both developments of optimization and machine learning research. In this paper, we first describe the optimization problems in machine learning. Then, we introduce the principles and progresses of commonly used optimization methods. Next, we summarize the applications and developments of optimization methods in some popular machine learning fields. Finally, we explore and give some challenges and open problems for the optimization in machine learning.

研究の動機と目的

監督あり学習、半監督学習、教師なし学習、強化学習を横断する機械学習における最適化問題を説明する。
機械学習で用いられる基本的および最近の最適化手法を体系的にレビューする。
深層ニューラルネットワーク、RL、メタ学習、変分推論、MCMC における最適化手法の応用を論じる。
今後の研究を指針とするために、ML の最適化における課題と未解決の問題を特定する。

提案手法

勾配情報に基づいて最適化手法を分類する：一階、高階、そして微分を用いない手法。
前処理（プリコンディショニング）の役割と、それが収束加速に及ぼす影響について論じる。
代表的なアルゴリズムを説明する（例：SGDとその派生、モーメント、Nesterov、AdaGrad/Adam、分散削減法など）。
大規模な機械学習問題における収束速度、計算コスト、およびスケーラビリティのトレードオフを説明する。
最適化手法をDNN、RL、メタ学習、変分推論、MCMCなどのMLアプリケーションに結びつける。

実験結果

リサーチクエスチョン

RQ1機械学習に最も関連する基本的および現代的な最適化手法は何か、そしてそれらの長所と限界は何か。
RQ2監督付き、教師なし、強化学習、ベイズ推論といった主要なMLパラダイム全体で最適化技術はどのように機能し、どの設定が最も効果的か。
RQ3さらなる研究を要するML最適化の残された課題と未解決問題は何か。

主な発見

一階手法（例：SGDとその派生）は、スケーラビリティの観点からMLで依然として優勢であり、加速および分散削減技術が収束を改善する。
高階手法は曲率情報を活用すると収束が速くなるが、ヘッセ行列の格納と計算といった実用的な課題に直面する。
微分を用いない手法は、微分が利用できない、または高価な場合に有用であり、勾配ベースの手法を補完できる。
適応学習率法（AdaGrad、RMSProp、Adam）は実用的な性能向上と手動チューニングの削減を提供し、固定学習率戦略をしばしば上回る。
分散削減技術（例：SAG）は、SGDにおける勾配ノイズを低減することで収束を速くすることができる。
最適化は、深層ニューラルネット、強化学習、メタ学習、変分推論、MCMC などを含むML分野全体で重要な役割を果たし、それぞれの領域に合わせた特定の手法が用いられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。