QUICK REVIEW

[논문 리뷰] Graph HyperNetworks for Neural Architecture Search

Wenjun Zhang, Mengye Ren|arXiv (Cornell University)|2018. 10. 12.

Advanced Neural Network Applications참고 문헌 39인용 수 115

한 줄 요약

그래프 하이퍼네트워크(GHN)가 후보 CNN의 모든 가중치를 계산 그래프에서 직접 생성하여 많은 아키텍처를 GHN 생성 가중치로 평가하는 빠른 NAS를 가능하게 하고, 무작위 기초 대비 약 10배 더 빠른 검색으로 경쟁력 있는 정확도를 달성합니다.

ABSTRACT

Neural architecture search (NAS) automatically finds the best task-specific neural network topology, outperforming many manual architecture designs. However, it can be prohibitively expensive as the search requires training thousands of different networks, while each can last for hours. In this work, we propose the Graph HyperNetwork (GHN) to amortize the search cost: given an architecture, it directly generates the weights by running inference on a graph neural network. GHNs model the topology of an architecture and therefore can predict network performance more accurately than regular hypernetworks and premature early stopping. To perform NAS, we randomly sample architectures and use the validation accuracy of networks with GHN generated weights as the surrogate search signal. GHNs are fast -- they can search nearly 10 times faster than other random search methods on CIFAR-10 and ImageNet. GHNs can be further extended to the anytime prediction setting, where they have found networks with better speed-accuracy tradeoff than the state-of-the-art manual designs.

연구 동기 및 목표

NAS 계산 비용을 줄이기 위해 내부 루프 가중치 최적화를 상쇄하는 것을 목표로 한다.
토폴로지를 포착하기 위한 그래프 기반의 아키텍처 표현을 도입한다.
그래프 신경망과 하이퍼네트워크를 이용해 모든 가중치를 예측하는 GHN을 개발한다.
CIFAR-10 및 ImageNet-mobile에서 GHN 기반 NAS의 효율성과 효과를 입증한다.
속도-정확도 트레이드를 최적화하기 위해 anytime 예측으로 GHN을 확장한다.

제안 방법

노드가 가중치를 가지는 연산자로 구성된 계산 그래프로 신경망 아키텍처를 인코딩한다.
토폴로지를 요약하는 노드 임베딩을 생성하기 위해 그래프 신경망을 사용한다.
공유 하이퍼네트워크를 적용하여 노드 임베딩을 모든 노드 가중치로 매핑하며, 식 w~v=H(hv^(T);φ)로 표현한다.
생성된 가중치를 통해 역전파로 학습 손실을 전달하여 GHN을 엔드투엔드로 학습한다.
길이가 긴 DAG에서 기울기 흐름을 개선하기 위한 순방향-역전방향 비동기 전파를 채택한다.
공유 매개변수를 갖는 반복 모듈에 걸쳐 GHN을 쌓아 아키텍처 모티프를 탐구한다.

실험 결과

연구 질문

RQ1그래프 기반 하이퍼네트워크가 계산 그래프에서 보지 못한 아키텍처의 가중치를 정확하게 예측할 수 있는가?
RQ2GHN-훈련 대리 신호가 substantially reduced search cost로도 경쟁적인 NAS 성능을 가능하게 하는가?
RQ3아키텍처 간 GHN 예측 성능과 완전 학습 성능 사이의 상관관계는 어떤가?
RQ4GHN을 언제든지 예측으로 확장하여 속도-정확도 트레이드오프를 개선할 수 있는가?
RQ5노드 수, 전파 방식, 층층이 쌓인 아키텍처 등의 설계 선택이 GHN의 효과에 어떤 영향을 미치는가?

주요 결과

방법	검색 비용 (GPU일)	매개변수 ×10^6	정확도
SMASHv1 (Brock et al., 2018)	?	4.6	94.5
SMASHv2 (Brock et al., 2018)	3	16.0	96.0
One-Shot Top (F=32) (Bender et al., 2018)	4	2.7 ± 0.3	95.5 ± 0.1
One-Shot Top (F=64) (Bender et al., 2018)	4	10.4 ± 1.0	95.9 ± 0.2
Random (F=32)	-	4.6 ± 0.6	94.6 ± 0.3
GHN Top (F=32)	0.42	5.1 ± 0.6	95.7 ± 0.1

GHN은 CIFAR-10에서 경쟁력 있는 결과와 ImageNet-mobile 결과를 달성하며 여러 무작위 탐색 기반 기준 대비 약 10x 더 빠른 검색 비용을 달성한다.
CIFAR-10에서 GHN Top (F=32)은 0.42 GPU-days의 검색 비용을 필요로 하고 5.1e6개의 매개변수에서 95.7%의 정확도를 보이며; GHN Top-Best (1K, F=32)는 0.84 GPU-days와 5.7e6 매개변수에서 97.16% ±0.07%를 달성한다.
ImageNet-mobile에서 CIFAR 블록을 GHN으로 전이하면 Top-1 73.0% 및 Top-5 91.3%를 0.84 GPU-days 검색 비용과 약 6.1e6 매개변수로 달성한다.
예측 성능 상관관계는 GHN이 상위 아키텍처에서 더 높은 상관관계를 보이며(랜덤-100과 Top-50의 상관 0.68; 공유 매개변수로 쌓인 GHN에서 순방향-역전파일 때 0.48) 원샷 및 SGD 기반 기준보다 더 나은 성능을 보인다.
GHN은 강력한 언제든지 예측 성능을 보여 state-of-the-art 수작업 설계 모델보다 더 나은 속도-정확도 트레이드오프를 갖는 네트워크를 찾아낸다.
변형 연구에서 노드 수를 일정 수준 이상 늘리면 학습에 악영향을 줄 수 있고, 순방향-역전방향 전파가 동기식 방식보다 우수하며, 층층이 쌓인 GHN 간 매개변수 공유가 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.