Skip to main content
QUICK REVIEW

[논문 리뷰] Understanding Architectures Learnt by Cell-based Neural Architecture Search

Yao Shu, Wei Wang|arXiv (Cornell University)|2019. 09. 20.
Advanced Memory and Neural Computing참고 문헌 28인용 수 60
한 줄 요약

이 논문은 대중적 cell 기반 NAS가 넓고 얕은 셀을 학습하는 경향이 있어 손실 지형이 매끈하고 기울기 분산이 낮아 더 빨리 수렴하지만, 다른 후보들보다 일반화가 반드시 더 잘 되지는 않는다는 것을 보여준다.

ABSTRACT

Neural architecture search (NAS) searches architectures automatically for given tasks, e.g., image classification and language modeling. Improving the search efficiency and effectiveness have attracted increasing attention in recent years. However, few efforts have been devoted to understanding the generated architectures. In this paper, we first reveal that existing NAS algorithms (e.g., DARTS, ENAS) tend to favor architectures with wide and shallow cell structures. These favorable architectures consistently achieve fast convergence and are consequently selected by NAS algorithms. Our empirical and theoretical study further confirms that their fast convergence derives from their smooth loss landscape and accurate gradient information. Nonetheless, these architectures may not necessarily lead to better generalization performance compared with other candidate architectures in the same search space, and therefore further improvement is possible by revising existing NAS algorithms.

연구 동기 및 목표

  • 인기 NAS 알고리즘이 학습한 아키텍처의 패턴을 조사한다.
  • NAS 셀들이 공통의 연결 패턴을 공유하는지 식별한다.
  • 왜 넓고 얕은 셀들이 나타나는지와 그것이 최적화에 어떻게 영향을 미치는지 설명한다.
  • 넓고 얕은 셀과 좁고 얕은 셀의 일반화 성능을 비교 평가한다.

제안 방법

  • NASNet, AmoebaNet, ENAS, DARTS, SNAS의 셀 토폴로지 시각화 및 분석.
  • 셀의 너비와 깊이를 정의하고 무작위로 연결된 변형과 비교한다.
  • 다양한 학습률 하에서 수렴을 연구하기 위해 CIFAR-10/100에서 NAS 아키텍처를 실험적으로 학습한다.
  • 등고선 플롯과 기울기 분산 지표를 통해 손실 지형을 분석한다.
  • 블록별 Lipschitz 연속성 및 기울기 분산 정리를 사용한 이론적 통찰을 제공한다.

실험 결과

연구 질문

  • RQ1NAS가 생성한 셀들이 아키텍처 전반에 걸쳐 공통의 연결 패턴을 보이는가?
  • RQ2왜 넓고 얕은 셀들이 NAS 탐색 중에 더 빠르게 수렴하는가?
  • RQ3셀의 너비와 깊이가 손실 지형의 매끄러움과 기울기 분산에 어떤 영향을 미치는가?
  • RQ4작업 간에 넓고 얕은 NAS 셀이 좁고 깊은 셀보다 일반화가 더 잘되는가?

주요 결과

  • 같은 탐색 공간에서 NAS 아키텍처는 후보 셀 중 가장 넓고 가장 얕은 경향이 있다.
  • 더 넓고 얕은 셀은 매끈한 손실 지형과 더 낮은 기울기 분산으로 더 빠르고 안정적으로 수렴한다.
  • 연산 선택은 연결 토폴로지에 비해 수렴에 미치는 영향이 제한적이다.
  • 넓고 얕은 셀이 작업 전반에 걸쳐 반드시 좁고 깊은 대안보다 일반화가 더 잘되지는 않는다.
  • 가장 넓고 얕은 패턴을 채택하는 것이 데이터셋과 아키텍처에 따라 혼합된 일반화 결과를 낳을 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.