[논문 리뷰] Neural Architecture Search with Reinforce and Masked Attention Autoregressive Density Estimators.
이 논문은 정책 네트워크로 마스크된 어텐션 순자기 모델을 사용하는 강화학습 기반 신경망 아키텍처 탐색(NAS) 방법을 제안하며, NASBench-101에서 더 효과적인 탐색을 가능하게 한다. 공유된 파라미터를 가진 다양한 순자기 인과 구조 순서에 조건화된 정책의 앙상블을 훈련시킴으로써 최신 기술 수준의 성능을 달성하며, 이는 이전의 정책 그래เดียน트 방법들과 무작위 탐색을 능가한다.
Neural Architecture Search has become a focus of the Machine Learning community. Techniques span Bayesian optimization with Gaussian priors, evolutionary learning, reinforcement learning based on policy gradient, Q-learning, and Monte-Carlo tree search. In this paper, we present a reinforcement learning algorithm based on policy gradient that uses an attention-based autoregressive model to design the policy network. We demonstrate how performance can be further improved by training an ensemble of policy networks with shared parameters, each network conditioned on a different autoregressive factorization order. On the NASBench-101 search space, it outperforms most algorithms in the literature, including random search. In particular, it outperforms RL methods based on policy gradients that use alternate architectures to specify the policy network, underscoring the importance of using masked attention in this setting. We have adhered to guidelines listed in Lindauer& Hutter (2019) while designing experiments and reporting results.
연구 동기 및 목표
- 더 표현력 있는 정책 네트워크를 사용하여 강화학습 기반 신경망 아키텍처 탐색(NAS) 성능을 향상시키는 것.
- 기존의 정책 그래디언트 방법이 정책 모델링을 위해 비순자기 또는 덜 구조화된 아키텍처를 사용함으로써 발생하는 한계를 해결하는 것.
- 순자기 인과 구조 순서가 NAS에서 정책 성능에 미치는 영향을 탐색하는 것.
- 마스크된 어텐션 메커니즘이 NAS에서 정책 일반화 및 탐색 효율성을 향상시키는지 확인하는 것.
- Lindauer & Hutter (2019) 지침에 따라 표준화된 벤치마크를 기반으로 한 방법의 유효성을 검증하는 것.
제안 방법
- 정책 그래디언트 기반 강화학습 프레임워크를 사용하여, 정책 네트워크가 단계별로 아키텍처 연산을 선택하는 NAS를 구현한다.
- 이전 선택 사항에 대한 어텐션을 활용하는 마스크된 자기주도 어텐션을 갖춘 순자기 모델을 정책을 모델링하는 데 사용한다. 이는 이전 선택에 대한 주의를 기반으로 순차적인 아키텍처 생성을 가능하게 한다.
- 각각 다른 아키텍처 탐색 공간의 순자기 인과 구조 순서에 조건화된 정책 네트워크 앙상블을 구성한다.
- 앙상블 구성원 간에 파라미터를 공유함으로써 샘플 효율성을 향상시키고 과적합을 줄인다.
- NASBench-101의 훈련된 모델로부터의 보상 신호를 사용하여 REINFORCE 알고리즘을 적용해 정책을 최적화한다.
- 인과성과 유효한 순자기 생성을 보장하기 위해 마스크된 어텐션을 적용한다.
실험 결과
연구 질문
- RQ1표준 피드포워드 또는 RNN 기반 정책에 비해 어텐션 기반 순자기 모델이 강화학습 기반 NAS에서 정책 표현력을 향상시키는가?
- RQ2다양한 순자기 인과 구조 순서에 조건화된 정책이 탐색 성능 및 강건성을 향상시키는가?
- RQ3제안된 방법은 NASBench-101 벤치마크에서 무작위 탐색 및 다른 RL 기반 NAS 방법과 비교해 어떻게 성능을 내는가?
- RQ4앙성 정책 간의 파라미터 공유가 NAS에서 샘플 효율성 및 일반화 능력을 얼마나 향상시키는가?
- RQ5아키텍처 탐색 맥락에서 효과적인 순자기 모델링을 위해 마스크된 어텐션은 필수적인가?
주요 결과
- 제안된 방법은 NASBench-101 탐색 공간에서 무작위 탐색을 능가하며, 구조화된 정책 네트워크를 사용함으로써 명백한 이점을 보여준다.
- 이 방법은 NASBench-101에서 RL 기반 NAS 알고리즘 중 최신 기술 수준의 성능을 달성하며, 다른 정책 아키텍처를 사용한 다른 정책 그래디언트 방법들을 능가한다.
- 다른 순자기 인과 구조 순서에 조건화된 정책의 앙상블을 사용함으로써 성능 향상이 이루어지며, 이는 인과 구조 순서가 탐색 품질에 상당한 영향을 미친다는 것을 시사한다.
- 정책 네트워크에 마스크된 어텐션을 통합함으로써, 비어텐션 기반 기준 대비 순차적 아키텍처 선택을 더 잘 모델링할 수 있었다.
- 앙성 구성원 간의 공유된 파라미터 사용은 성능을 손상시키지 않으면서도 훈련 안정성과 샘플 효율성을 향상시켰다.
- 이 방법은 Lindauer & Hutter (2019) 지침에 따라 표준화된 지침에 따라 평가되었으며, 결과가 이에 따라 보고되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.