Skip to main content
QUICK REVIEW

[논문 리뷰] Learned Optimizers that Scale and Generalize

Olga Wichrowska, Niru Maheswaranathan|arXiv (Cornell University)|2017. 03. 14.
Advanced Neural Network Applications참고 문헌 25인용 수 115
한 줄 요약

이 논문은 계층적 RNN 기반의 학습 가능한 최적화기가 새로운 작업으로 일반화하고 더 큰 문제로 확장될 수 있으며, ADAM/RMSProp와의 경쟁력 있는 성능을 달성하고 초기 반복에서 ImageNet 규모의 학습으로 확장한다.

ABSTRACT

Learning to learn has emerged as an important direction for achieving artificial intelligence. Two of the primary barriers to its adoption are an inability to scale to larger problems and a limited ability to generalize to new tasks. We introduce a learned gradient descent optimizer that generalizes well to new tasks, and which has significantly reduced memory and computation overhead. We achieve this by introducing a novel hierarchical RNN architecture, with minimal per-parameter overhead, augmented with additional architectural features that mirror the known structure of optimization tasks. We also develop a meta-training ensemble of small, diverse optimization tasks capturing common properties of loss landscapes. The optimizer learns to outperform RMSProp/ADAM on problems in this corpus. More importantly, it performs comparably or better when applied to small convolutional neural networks, despite seeing no neural networks in its meta-training set. Finally, it generalizes to train Inception V3 and ResNet V2 architectures on the ImageNet dataset for thousands of steps, optimization problems that are of a vastly different scale than those it was trained on. We release an open source implementation of the meta-training algorithm.

연구 동기 및 목표

  • 학습된 경사 하강 최적화기가 보지 못한 작업과 아키텍처에 일반화될 수 있음을 입증한다.
  • 더 큰 문제로 확장할 수 있도록 메모리 및 계산 오버헤드를 감소시킨다.
  • 최적화에서 영감을 얻은 특징들(주의 기반 외삽, 다중 시간 규모 모멘텀, 동적 입력 스케일링)을 학습 가능한 업데이트 규칙에 통합한다.
  • 일반 손실 지형 특성을 포착하는 다양한 메타-트레이닝 앙상블을 개발한다.
  • 최적화기가 초기 학습 단계에서 더 큰 모델(ImageNet 규모)을 학습시킬 수 있음을 보인다."],
  • method':['매 매개변수(Parameter RNN), 텐서 레벨(Tensor RNN), 전역(Global RNN) 구성요소를 갖는 계층적 RNN 최적화를 도입한다.','주의 기반 외삽, 다중 시간 척도 모멘텀, 동적 입력 스케일링, 분해된 업데이트 길이 등 최적화에서 영감을 받은 특징을 포함한다.','스케일링된 그래디언트, 모멘텀 지표, 상대 학습률 신호 등을 RNN 입력으로 사용한다.','학습 가능한 아핀 읽기(readouts)를 통해 매 매개변수 및 매 텐서 업데이트를 출력하고 학습률 로그를 조정한다.','학습 단계에 대한 무거운 꼬리 분포를 갖춘 소형 다양한 최적화 과제의 큐레이션된 앙상블에서 옵티마이저를 메타 트레이닝한다.','평균 로그 손실에 기반한 메타 목적 함수를 사용해 정밀한 수렴과 학습률 적응을 촉진한다.'],
  • research_questions':['학습된 옵티마이저가 메타 트레이닝 중 보지 못한 신경망 아키텍처 및 문제 클래스에 일반화될 수 있는가?','더 큰 최적화 문제로 확장 가능하도록 메모리 및 계산 오버헤드를 어떻게 줄일 수 있는가?','최적화에서 영감을 얻은 아키텍처적 특징이 학습된 옵티마이저의 작업 간 일반화에 도움이 되는가?','다양한 소형 과제의 메타 트레이닝이 더 큰 네트워크와 데이터셋(예: ImageNet)에서 robust한 성능을 낳는가?'],
  • key_findings':['계층적 RNN 최적화기가 메타 트레이닝 세트의 문제에서 RMSProp/ADAM과 경쟁력 있는 성능을 달성한다.','메타 트레이닝에 노출되지 않은 작은 ConvNet 및 완전 연결 네트에 일반화되며, 비교하거나 더 나은 성능을 보인다.','초기 단계에서 ImageNet의 Inception V3 및 ResNet V2의 학습을 안정시킬 수 있지만, 학습이 진행될수록 진척이 느려질 수 있다.','Parameter RNN을 작게 유지하면 메모리 및 계산 오버헤드가 유리하게 스케일링되어 대규모 사용 사례를 가능하게 한다.','초기 학습률 선택에 대해 성능이 강건하며, 주된 특징들(주의, 다중 시간 스케일 모멘텀, 스케일링, 상대 학습률)의 중요성을 간략화 실험에서 보여준다.','미니배치 크기가 증가함에 따라 학습 가능한 옵티마이저의 실시간 소요 시간이 표준 최적화기와 근접하게 나타난다.'],
  • table_headers: []
  • table_rows: []

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.