Skip to main content
QUICK REVIEW

[논문 리뷰] Adaptive Stochastic Natural Gradient Method for One-Shot Neural Architecture Search

Youhei Akimoto, Shinichi Shirakawa|arXiv (Cornell University)|2019. 05. 21.
Advanced Neural Network Applications인용 수 51
한 줄 요약

ASNG-NAS를 도입하는 강건한 샷원-shot NAS 프레임워크로, 확률적 이완과 적응형 확률적 자연 그래디언트를 사용하여 가중치와 아키텍처를 최소한의 하이퍼파라미터 조정으로 공동 최적화하며, 저 계산 예산에서 이미지 분류 및 인페인팅에 대해 경쟁력 있는 결과를 달성합니다.

ABSTRACT

High sensitivity of neural architecture search (NAS) methods against their input such as step-size (i.e., learning rate) and search space prevents practitioners from applying them out-of-the-box to their own problems, albeit its purpose is to automate a part of tuning process. Aiming at a fast, robust, and widely-applicable NAS, we develop a generic optimization framework for NAS. We turn a coupled optimization of connection weights and neural architecture into a differentiable optimization by means of stochastic relaxation. It accepts arbitrary search space (widely-applicable) and enables to employ a gradient-based simultaneous optimization of weights and architecture (fast). We propose a stochastic natural gradient method with an adaptive step-size mechanism built upon our theoretical investigation (robust). Despite its simplicity and no problem-dependent parameter tuning, our method exhibited near state-of-the-art performances with low computational budgets both on image classification and inpainting tasks.

연구 동기 및 목표

  • 입력 하이퍼파라미터와 탐색 공간 선택에 로버스트한 자동화된 신경망 아키텍처 탐색(NAS)을 동기화한다.
  • 연관된 가중치-아키텍처 최적화를 구분 가능한 확률적 이완으로 바꿔 기울기 기반 최적화를 가능하게 한다.
  • 적응형 확률적 자연 그래디언트(ASNG) 프레임워크를 스텝 사이즈와 트러스-리전(신뢰 영역) 적응과 함께 개발한다.
  • 임의의 아키텍처 변수 유형(범주형, 서수형 또는 혼합)에 걸쳐 사용 가능한 통합 NAS 방법을 제공한다.

제안 방법

  • NAS를 미분가능한 목적 함수 f(x,c)의 가중치 x와 아키텍처 c에 대한 최대화 문제로 형식화한다.
  • 아키텍처 변수에 대한 분포 가족 P_θ를 도입하고 J(x,θ)=E_{p_θ}[f(x,c)]를 정의하여 확률적 이완을 적용한다.
  • 경사 상승을 번갈아 수행한다: x-업데이트는 ∇_xJ의 몬테카를로 추정치를 이용하고 θ-업데이트는 피셔 정보 피로도에 의해 정규화된 스텝 사이즈 ε_θ를 사용한 자연 그래디언트로 수행한다.
  • P_θ를 지수 가족으로 채택하고 자연 그래디언트의 MC 추정치를 사용한다; θ-업데이트를 θ←θ+ε_θ G_θ로 계산하는데 G_θ는 T(c)−θ와 피셔 메트릭을 사용한다.
  • 적응형 확률적 자연 그래디언트(ASNG)를 제안하여 신호 대 잡음비를 높게 유지하기 위해 트러스 영역 δ_θ를 적응시키고 그래디언트 정보를 축적한다; Practical update rule(Equation 21)을 도출하여 δ_θ를 조정하고 안정성을 위해 점진적 업데이트를 위한 그래디언트 누적 s^(t)와 γ^(t)을 사용한다.

실험 결과

연구 질문

  • RQ1확률적 이완과 적응형 확률적 자연 그래디언트를 사용한 NAS가 다양한 탐색 공간과 작업에서 강건하고 즉시 적용 가능한지 이끌어낼 수 있는가?
  • RQ2제안된 ASNG 프레임워크가 하이퍼-파라미터(예: 스텝 사이즈)에 대한 민감성을 줄이면서 NAS 성능을 유지하거나 향상시키는가?
  • RQ3이미지 분류 및 인페인팅 작업에서 ASNG-NAS가 기존 NAS 방법들과 비교하여 탐색 효율성과 최종 모델 품질 면에서 어떤 차이가 있는가?

주요 결과

  • ASNG-NAS는 하이퍼파라미터 설정 및 아키텍처 공간 변화에 대해 강건성을 달성하여 문제별 조정의 필요성을 줄인다.
  • CIFAR-10에서 ASNG-NAS는 여러 베이스라인에 비해 탐색 비용이 훨씬 작으면서도 경쟁력 있는 테스트 오차를 달성한다(ASNG-NAS의 0.11 GPU-days 보고).
  • ASNG-NAS는 아키텍처 탐색 중 빠른 수렴을 보이고, 가장 가능성 높은 아키텍처 재학습 후에는 경쟁력 있거나 우수한 결과를 낳는다.
  • 적절한 지수 가족 분포를 통해 임의의 아키텍처 변수 유형(범주형, 서수형 또는 혼합)을 지원한다.
  • 실험은 ASNG-NAS가 이미지 분류와 인페인팅 작업 모두에서 잘 작동함을 보여주며, 거의 최첨단 수준의 성능과 다른 여러 대안들보다 낮은 계산 예산을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.