QUICK REVIEW

[논문 리뷰] Learning to Optimize

Ke Li, Jitendra Malik|arXiv (Cornell University)|2016. 06. 06.

Machine Learning and Data Classification참고 문헌 26인용 수 166

한 줄 요약

이 논문은 안내 정책 탐색을 사용하여 정책 기반 최적화 알고리즘을 학습하고, 어떤 최적화 방법도 정책으로 간주하며 학습된 옵티마이저가 손으로 설계된 것보다 더 빠르게 수렴하고 더 나은 최적해를 달성할 수 있음을 보여준다. 이는 볼록하고 비볼록 문제에서 모두 해당한다.

ABSTRACT

Algorithm design is a laborious process and often requires many iterations of ideation and validation. In this paper, we explore automating algorithm design and present a method to learn an optimization algorithm, which we believe to be the first method that can automatically discover a better algorithm. We approach this problem from a reinforcement learning perspective and represent any particular optimization algorithm as a policy. We learn an optimization algorithm using guided policy search and demonstrate that the resulting algorithm outperforms existing hand-engineered algorithms in terms of convergence speed and/or the final objective value.

연구 동기 및 목표

제한되지 않은 연속 최적화 알고리즘의 설계 자동화를 모티브로 삼는다.
강화학습 설정에서 최적화 알고리즘이 정책으로 표현되는 프레임워크를 개발한다.
전통적 알고리즘보다 더 빠르게 수렴하거나 더 나은 최적점을 찾는 학습된 옵티마이저를 훈련한다.
학습된 옵티마이저가 보지 못한 목표와 더 긴 시점에서 일반화되는 것을 입증한다.

제안 방법

정책이 각 반복에서 취할 단계를 결정하는 강화학습 문제로 최적화를 형식화한다.
현재 위치의 목표 값과 그래디언트 및 과거 점들로부터 단계 변화 delta x를 매핑하는 정책 π로 옵티마이저를 표현한다.
가이드드 정책 탐색을 사용해 목표 궤적 분포를 구성하고 정책을 감독 학습하는 과정을 교대하며 정책 파라미터를 학습한다.
정책을 작은 신경망(은닉층 1개, 유닛 수 50, Softplus 활성화)으로 모델링한다.
현재 위치, 목표 값의 변화, 그리고 지난 H=25 스텝의 과거 그래디언트를 포함하는 상태를 사용한다; 절대 좌표는 제외한다.
무작위로 생성된 목표 함수들의 궤적을 사용해 정책을 학습한다; 목표 궤적은 그래디언트-디센트-모멘텀을 모방하도록 초기화한 뒤 점차 다듬는다.
볼록 objective(로지스틱 회귀)와 비볼록(objectives robust linear regression 및 두 층 ReLU 신경망)을 대상으로 평가해 손으로 설계된 옵티마이저(그래디언트 디센트, 모멘텀, 共응합, L-BFGS)와 비교한다.

실험 결과

연구 질문

RQ1학습된 최적화 정책이 서로 다른 목적 함수 클래스(볼록 및 비볼록)에서 전통적 손으로 설계된 옵티마이저를 능가할 수 있는가?
RQ2학습된 옵티마이저가 학습 중에 본 적이 없는 목적 함수와 더 긴 최적화 시점에 일반화되는가?
RQ3자율 옵티마이저가 어떤 문제 클래스에서 베이스라인에 비해 가장 큰 개선을 제공하거나 한계를 보이는가?
RQ4볼록 목표에 대해 L-BFGS와 같은 최첨단 방법에 비해 학습된 옵티마이저의 성능은 어떤가?
RQ5자율 옵티마이저가 비볼록 문제에서 진동을 줄이고 지역 최적점에 갇히는 것을 방지하는가?

주요 결과

자율 옵티마이저는 로지스틱 회귀 테스트 목표에서 그래디언트 디센트, 모멘텀, 共응합보다 초기 반복에서 특히 우수하게 성능을 보인다.
로지스틱 회귀에서는 L-BFGS가 특정 경우에 다소 더 빠르게 수렴하지만, 자율 옵티마이저는 여전히 경쟁적이며 일반적으로 더 빠르게 전체적으로 수렴한다.
강건 선형 회귀의 경우 자율 옵티마이저가 대부분의 반복에서 그래디언트 디센트, 共응합, L-BFGS를 능가하며, 모멘텀은 초기에는 따라잡는 경우도 있다.
신경망 학습에서 자율 옵티마이저는 기저선보다 현저히 우수한 성능을 보이며 더 빠른 수렴과 더 나은 최적해를 더 적은 진동으로 달성한다.
비볼록 문제(강건 회귀 및 신경망)에서，共응합과 L-BFGS가 자주 수렴하지 못하는 반면, 학습된 옵티마이저는 안정성과 우수한 성능을 유지한다.
학습된 옵티마이저는 40-스텝 학습 궤도 이후의 더 긴 시점으로 일반화하며, 테스트 목표에서 베이스라인과 비교해 동등하거나 더 나은 최적점을 달성할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.