QUICK REVIEW

[논문 리뷰] Finding Competitive Network Architectures Within a Day Using UCT

Martin Wistuba|arXiv (Cornell University)|2017. 12. 20.

Advanced Neural Network Applications참고 문헌 23인용 수 23

한 줄 요약

이 논문은 몬테카를로 트리 탐색을 두 가지 새로운 UCT 기반 알고리즘으로 강화하여 신경망 아키텍처 탐색을 자동화하고, 단일 GPU 1일 내에 MNIST, SVHN 및 CIFAR-10에서 경쟁 가능한 성능을 달성한다. 유사한 아키텍처 간의 정보 공유와 Net2Net 지식 이관을 통해, 엄격한 시간 제약 조건 하에서 이전의 자동화된 및 인간이 설계한 아키텍처를 초월한다.

ABSTRACT

The design of neural network architectures for a new data set is a laborious task which requires human deep learning expertise. In order to make deep learning available for a broader audience, automated methods for finding a neural network architecture are vital. Recently proposed methods can already achieve human expert level performances. However, these methods have run times of months or even years of GPU computing time, ignoring hardware constraints as faced by many researchers and companies. We propose the use of Monte Carlo planning in combination with two different UCT (upper confidence bound applied to trees) derivations to search for network architectures. We adapt the UCT algorithm to the needs of network architecture search by proposing two ways of sharing information between different branches of the search tree. In an empirical study we are able to demonstrate that this method is able to find competitive networks for MNIST, SVHN and CIFAR-10 in just a single GPU day. Extending the search time to five GPU days, we are able to outperform human architectures and our competitors which consider the same types of layers.

연구 동기 및 목표

제한된 계산 자원을 가진 연구자들이 실현 가능한 자동화된 효율적 신경망 아키텍처 탐색을 가능하게 하기 위해.
경쟁 가능한 네트워크 아키텍처를 발견하는 데 소요되는 시간을 수개월에서 단일 GPU 1일 이내로 줄이기 위해.
스케일링 가능하고 효과적인 탐색 방법을 개발하여 인간이 설계한 네트워크 성능을 따라하거나 능가하기 위해.
현실 세계 환경에서 기존 강화 학습 및 신경진화 기반 접근 방식의 계산 비용이 지나치게 높아 실용적이지 않다는 문제를 해결하기 위해.

제안 방법

아키텍처 탐색은 상태가 부분적으로 구성된 아키텍처를 나타내고, 동작이 레이어를 추가하는 마코프 결정 과정으로 모델링된다.
두 가지 UCT 변종이 제안된다: 하나는 유사한 상태에서 유사한 동작 간의 정보 공유를 하며, 다른 하나는 이전 동작 시퀀스를 기반으로 최종 보상을 예측한다.
몬테카를로 계획을 사용하여 탐색-이용 균형을 유지하면서 기대 보상을 최대화하는 트리 탐색이 수행된다.
자식 네트워크의 학습을 가속화하기 위해 Net2Net 지식 이관이 적용되어 부모 네트워크에서 초기화된다.
탐색 공간에는 19개의 동작이 포함되어 있다: 다양한 커널 크기와 필터 수를 가진 컨볼루션, 풀링, 완전 연결 레이어.
일부 GPU 1일의 시간 예산이 설정되며, 이 제약 조건 하에서 성능을 최대화하도록 하이퍼파rameter가 조정된다.

실험 결과

연구 질문

RQ1UCT 기반 몬테카를로 계획 접근 방식이 단일 GPU 1일 내에 경쟁 가능한 신경망 아키텍처를 발견할 수 있는가?
RQ2유사한 아키텍처 간의 정보 공유가 탐색 효율성과 성능에 어떤 영향을 미치는가?
RQ3제안된 방법이 엄격한 시간 및 하드웨어 제약 조건 하에서 기존 자동화된 및 인간이 설계한 아키텍처를 능가할 수 있는가?
RQ4탐색 예산을 5일로 늘였을 때 성능과 아키텍처 다양성에 어떤 영향을 미치는가?

주요 결과

이 방법은 단일 GPU 1일 내에 CIFAR-10에서 테스트 정확도 91.2%를 달성하여 동일한 시간 예산 하에서 경쟁자들을 능가했다.
5일의 탐색 예산을 가질 경우, 이 방법은 93.55%의 테스트 정확도를 달성한 네트워크를 발견하여 인간이 설계한 및 자동화된 기준을 모두 초월했다.
이 방법이 발견한 상위 5개 아키텍처의 평균 테스트 정확도는 90.80%였고, 표준편차가 1.10%로 낮아 높은 일관성을 보였다.
반면 MetaQNN는 93.08% 정확도에 도달하기 위해 100일 이상이 소요되었으며, 50일 GPU를 사용한 후에도 총 27개의 네트워크만 평가되었고, 대부분은 무작위로 샘플링된 것이었다.
신경망 아키텍처 탐색 및 대규모 진화는 각각 800개 이상의 모델 평가와 수개월의 계산을 필요로 하여 무작위 탐색을 뛰어넘었다.
이 방법은 깊이 7 아키텍처로 수렴하는 경향을 보였고, 이에 따라 깊은 네트워크를 선호하는 아키텍처 제약 조건을 도입하여 성능 향상을 이끌어냈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.