[논문 리뷰] Meta Architecture Search
이 논문은 베이지안 공식화를 사용하여 작업에 종속되지 않는 신경망 아키텍처 공간에 대한 사전 분포를 학습하는 메타학습 프레임워크인 베이지안 메타 아키텍처 SEarch(BASE)를 소개한다. 다양한 이미지 분류 작업의 분포에서 훈련함으로써 BASE는 새로운 작업에 대해 빠르게, 한 시간 이내에 적응할 수 있으며, ImageNet에서 25.7%의 top-1 오차와 CIFAR-10에서 2.83%의 오차를 기록한다. 이는 표준 NAS에 비해 계산 비용을 크게 줄이며 최신 기술 수준의 성능을 유지한다.
Neural Architecture Search (NAS) has been quite successful in constructing state-of-the-art models on a variety of tasks. Unfortunately, the computational cost can make it difficult to scale. In this paper, we make the first attempt to study Meta Architecture Search which aims at learning a task-agnostic representation that can be used to speed up the process of architecture search on a large number of tasks. We propose the Bayesian Meta Architecture SEarch (BASE) framework which takes advantage of a Bayesian formulation of the architecture search problem to learn over an entire set of tasks simultaneously. We show that on Imagenet classification, we can find a model that achieves 25.7% top-1 error and 8.1% top-5 error by adapting the architecture in less than an hour from an 8 GPU days pretrained meta-network. By learning a good prior for NAS, our method dramatically decreases the required computation cost while achieving comparable performance to current state-of-the-art methods - even finding competitive models for unseen datasets with very quick adaptation. We believe our framework will open up new possibilities for efficient and massively scalable architecture search research across multiple tasks.
연구 동기 및 목표
- 다양한 작업을 위한 반복적인 신경망 아키텍처 탐색(NAS)의 높은 계산 비용을 해결하기 위해 공유된, 작업에 종속되지 않는 사전 분포를 학습하는 것.
- 사전 훈련된 메타넷을 사용하여 새로운 작업에 대해 아키텍처와 가중치를 신속하게 적응시키는 것.
- 아키텍처 탐색을 작업 분포 위에서의 베이지안 추론 문제로 공식화하여 일반화 능력과 효율성을 향상시키는 것.
- ImageNet, CIFAR-10, SVHN 및 소수의 샘플 학습을 포함한 다양한 벤치마크에서 프레임워크의 효과성을 입증하는 것.
- 최적화 임bedding과 Gumbel-Softmax를 사용하여 아키텍처를 미분 가능하고 종단 간(end-to-end)으로 메타아키텍처 학습할 수 있도록 하는 것.
제안 방법
- 아키텍처와 가중치에 대한 사후 분포를 작업 분포 위에서 분포로 모델링하는 베이지안 공식화를 제안한다.
- 모든 경로에서 아키텍처 탐색을 가능하게 하기 위해 Gumbel-Softmax 파arameterization을 사용한 확률적 신경망을 사용한다.
- 최적화 임베딩을 사용하여 사후 분포를 작업별 정보에 조건화함으로써 가중치와 아키텍처의 공동 학습을 가능하게 한다.
- ImageNet에서 클래스 서브셋과 이미지 해상도(32×32, 64×64, 224×224)를 변화시켜 유도한 2.634×10^23개의 작업 분포를 합성한 분포에서 메타넷을 훈련한다.
- 사전 훈련된 메타넷을 미세조정을 통해 새로운 작업에 적응시키며, 한 시간 이내에 아키텍처와 가중치를 동시에 최적화한다.
- 소수의 샘플 학습에 응용하기 위해 메타넷을 직접 사용하여 저샷 설정에서 일반화 가능한 아키텍처를 탐색한다.
실험 결과
연구 질문
- RQ1단일 메타넷을 훈련시켜 다양한 이미지 분류 작업 분포에서 신속하고 정확한 아키텍처 탐색을 수행할 수 있는가?
- RQ2작업에 종속되지 않는 아키텍처에 대한 베이지안 사전 분포를 학습시키는 것이, 작업별 NAS에 비해 일반화 능력 향상과 탐색 비용 감소에 어떻게 기여하는가?
- RQ3ImageNet 유사 작업에서 훈련된 메타넷이 CIFAR-10이나 Mini-Imagenet와 같은 새로운 데이터셋으로 일반화되는 정도는 어느 정도인가?
- RQ4적응 과정에서 아키텍처와 가중치를 동시에 최적화하는 것이 아키텍처 파rameter를 동결한 경우보다 성능을 더 좋게 만드는가?
- RQ5메타아키텍처 탐색 프레임워크는 데이터가 극히 제한된 소수의 샘플 학습에 효과적으로 적용될 수 있는가?
주요 결과
- BASE는 사전 훈련에 8 GPU일이 소요되며, 한 시간 이내에 메타넷을 적응시켜 ImageNet에서 25.7%의 top-1 오차와 8.1%의 top-5 오차를 달성한다.
- CIFAR-10에서, 적응된 메타넷은 한 시간 이내에 2.83%의 top-1 오차를 기록하며, 효율성 측면에서 표준 NAS를 능가한다.
- 5-way 5-shot Mini-Imagenet 벤치마크에서 메타넷은 더 적은 파라미터를 가짐에도 불구하고 66.2%의 정확도를 달성하여 MAML 기반 모델과 DARTS 아키텍처를 능가한다.
- 적응 과정에서 아키텍처 파라미터를 고정시키면 성능이 크게 떨어지며, 아키텍처와 가중치의 공동 최적화가 중요함을 보여준다.
- Gumbel-Softmax 파arameterization은 DARTS에서 사용하는 표준 소프트맥스 근사보다 더 나은 아키텍처를 도출함으로써 더 높은 탐색 품질을 의미한다.
- 메타넷이 CIFAR-10에서 훈련된 바가 없음에도 불구하고, posterior 분포가 빠르게 이 데이터셋에 적응함으로써 강력한 제로샷 일반화 능력을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.