QUICK REVIEW

[논문 리뷰] SMASH: One-Shot Model Architecture Search through HyperNetworks

Andrew Brock, Theodore Lim|arXiv (Cornell University)|2017. 08. 17.

Machine Learning and Data Classification참고 문헌 32인용 수 392

한 줄 요약

SMASH는 가변 아키텍처 네트워크의 가중치를 생성하는 HyperNet를 훈련시켜 단일 학습 실행으로 여러 아키텍처를 원샷으로 랭킹할 수 있게 합니다. HyperNet이 생성한 가중치를 통해 아키텍처를 평가하고, 전체 학습에 적합한 설계들을 선택합니다.

ABSTRACT

Designing architectures for deep neural networks requires expert knowledge and substantial computation time. We propose a technique to accelerate architecture selection by learning an auxiliary HyperNet that generates the weights of a main model conditioned on that model's architecture. By comparing the relative validation performance of networks with HyperNet-generated weights, we can effectively search over a wide range of architectures at the cost of a single training run. To facilitate this search, we develop a flexible mechanism based on memory read-writes that allows us to define a wide range of network connectivity patterns, with ResNet, DenseNet, and FractalNet blocks as special cases. We validate our method (SMASH) on CIFAR-10 and CIFAR-100, STL-10, ModelNet10, and Imagenet32x32, achieving competitive performance with similarly-sized hand-designed networks. Our code is available at https://github.com/ajbrock/SMASH

연구 동기 및 목표

아키텍처 검색 비용을 줄이기 위해 모든 후보를 완전히 학습하는 것을 피하는 동기를 제공한다.
다양한 네트워크 연결성을 표현하기 위한 유연한 메모리-뱅크 기반 인코딩을 제안한다.
아키텍처 인코딩을 주 네트워크의 가중치로 매핑하는 Dynamic HyperNet를 도입한다.
SMASH 프록시 성능과 실제 훈련된 성능 간의 상관관계를 데이터셋 전반에 걸쳐 조사한다.
발견된 아키텍처의 데이터셋과 도메인 간 전이 가능성을 탐구한다.

제안 방법

가변 깊이와 연결성을 이진 벡터로 인코딩하기 위한 네트워크의 메모리-뱅크 뷰를 정의한다.
아키텍처 인코딩을 주 네트워크의 가중치로 매핑하는 HyperNet를 훈련시켜 아키텍처에 조건부로 가중치를 생성하도록 한다.
SMASH 학습 동안 아키텍처를 샘플링하고 HyperNet를 통해 가중치를 생성한 뒤 전체 시스템을 역전파한다.
검증 세트에서 HyperNet 생성 가중치를 사용해 일련의 아키텍처를 평가하고 이를 통해 전체 학습용으로 순위를 매긴다.
최고 점수를 받은 아키텍처를 고정하고 최종 평가를 위해 자유롭게 학습된 가중치로 학습한다.

Figure 1: Memory-Bank representations of ResNet, DenseNet, and FractalNet blocks.

실험 결과

연구 질문

RQ1SMASH가 생성한 가중치 프록시가 완전히 학습된 아키텍처의 성능과 상관관계가 있는가?
RQ2단일 학습 실행으로 SMASH가 광범위한 아키텍처를 신뢰할 수 있게 순위 매길 수 있는가?
RQ3SMASH를 통한 아키텍처 검색이 서로 다른 데이터셋과 도메인으로 어떻게 전이되는가?
RQ4SMASH 점수의 신뢰성에 대한 HyperNet 용량의 영향은 무엇인가?
RQ5학습된 아키텍처-가중치 매핑을 아키텍처 공간에서 그래디언트 유사 가이던스로 활용할 수 있는가?

주요 결과

일부 학습 구성에서 CIFAR-100에서 SMASH 점수와 실제 검증 성능 사이의 상관관계가 관찰됩니다.
용량이 낮은 HyperNet은 SMASH 점수와 실제 성능 간의 상관관계를 깨뜨릴 수 있습니다.
대다수 용량이 고정된(생성되지 않은) 가중치에 있을 때는 SMASH 점수가 아키텍처 성능을 잘 예측하지 못할 수 있습니다.
평가 중 아키텍처 인코딩을 손상시키는 방법은 검증 성능을 저하시켜 HyperNet이 아키텍터-조건부 가중치를 학습한다는 것을 시사합니다.
가장 성능이 좋은 SMASHv2 아키텍처는 CIFAR-10/100 및 Imagenet32x32에서 일부 수작업 설계 네트워크 및 다른 NAS 방법과 비교해 경쟁력 있는 결과를 얻었습니다.
발견된 CIFAR 기반 아키텍처를 STL-10 및 ModelNet10으로의 전이는 혼합된 결과를 보였으며, 더 큰 데이터셋이 아키텍처 구분력을 향상시킬 수 있음을 시사합니다.

Figure 3: An unrolled graph, its equivalent memory-bank representation, and its encoded embedding.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.