Skip to main content
QUICK REVIEW

[논문 리뷰] Understanding Neural Architecture Search Techniques

George Alexandru Adam, Jonathan Lorraine|arXiv (Cornell University)|2019. 03. 31.
Adversarial Robustness in Machine Learning참고 문헌 9인용 수 29
한 줄 요약

이 논문은 ENAS와 같은 신경망 구조 탐색(NAS) 방법이 약한 컨트롤러 해석 가능성에도 불구하고 우수한 성능을 내는 이유를 조사한다. ENAS의 RNN 컨트롤러가 과거 아키텍처 결정을 인코딩하지 못함으로써, 성능이 무작위 탐색과 유사한 것으로 나타났다. 과거 행동에 조건을 부여하는 메모리 증강 정규화 기법을 도입함으로써, 저자들은 숨겨진 상태의 해석 가능성을 향상시키고, 컨트롤러 임bedding과 아키텍처 유사도 측정값 간의 상관관계를 높였다. 이는 더 나은 컨트롤러 설계가 가중치 공유 히وري스틱을 넘어서 NAS 성능을 향상시킬 수 있음을 보여준다.

ABSTRACT

Automatic methods for generating state-of-the-art neural network architectures without human experts have generated significant attention recently. This is because of the potential to remove human experts from the design loop which can reduce costs and decrease time to model deployment. Neural architecture search (NAS) techniques have improved significantly in their computational efficiency since the original NAS was proposed. This reduction in computation is enabled via weight sharing such as in Efficient Neural Architecture Search (ENAS). However, recently a body of work confirms our discovery that ENAS does not do significantly better than random search with weight sharing, contradicting the initial claims of the authors. We provide an explanation for this phenomenon by investigating the interpretability of the ENAS controller's hidden state. We find models sampled from identical controller hidden states have no correlation with various graph similarity metrics, so no notion of structural similarity is learned. This failure mode implies the RNN controller does not condition on past architecture choices. Lastly, we propose a solution to this failure mode by forcing the controller's hidden state to encode pasts decisions by training it with a memory buffer of previously sampled architectures. Doing this improves hidden state interpretability by increasing the correlation between controller hidden states and graph similarity metrics.

연구 동기 및 목표

  • ENAS 및 유사한 NAS 방법이 컨트롤러의 해석 가능성에 약함에도 불구하고 강력한 성능을 내는 이유를 조사하는 것.
  • ENAS에서 정책 그래เดียน트 학습이 컨트롤러의 은닉 상태에 의미 있는 아키텍처 편향을 유도하지 못하는 이유를 진단하는 것.
  • RNN 컨트롤러가 과거 행동에 조건을 부여하지 못함으로써 성능이 무작위 탐색과 구분되지 않는 실패 모드를 해결하는 것.
  • 과거 결정을 인코딩하도록 컨트롤러를 강제하는 정규화 기법을 제안하여 해석 가능성과 탐색 효율성을 향상시키는 것.
  • 향상된 컨트롤러 임베딩이 실제 아키텍처 유사도와 성능 차이와 상관관계가 있는지 평가하는 것.

제안 방법

  • 정책 그래데이언트 학습 중 컨트롤러의 은닉 상태를 정규화하기 위해 이전에 샘플링된 아키텍처의 메모리 버퍼를 도입한다.
  • 최종 은닉 상태가 샘플링 중에 이루어진 아키텍처 선택을 반영하도록 유도하는 지도 학습 손실을 사용하여 컨트롤러를 훈련시킨다.
  • 정책 그래데이언트와 지도 학습을 결합한 하이브리드 손실을 사용한다: $\mathcal{L} = \mathcal{L}_{PG} + \mathcal{L}_{Sup}$.
  • 분포 이탈과 사기 방지를 방지하기 위해 이전 컨트롤러 파라미터에서 샘플링된 아키텍처를 사용해 메모리 버퍼를 구성한다.
  • 최종 은닉 상태 간의 L2 거리로 컨트롤러 임베딩 유사도를 측정하고, 그래프 기반 아키텍처 측정값과 상관관계를 분석한다.
  • Spearman 상관계수를 사용해 임베딩 거리와 공통 활성화 함수, 연결 수, 그래프 편집 거리와 같은 아키텍처 유사도 측정값 간의 상관관계를 평가한다.

실험 결과

연구 질문

  • RQ1ENAS 컨트롤러의 은닉 상태는 과거 아키텍처 결정에 대한 의미 있는 정보를 인코딩하는가?
  • RQ2ENAS는 강화학습을 사용하고 있음에도 불구하고 왜 무작위 탐색과 유사한 성능을 내는가?
  • RQ3정규화 기법을 통해 과거 행동에 조건을 부여하도록 강제함으로써 컨트롤러 은닉 상태의 해석 가능성을 향상시킬 수 있는가?
  • RQ4컨트롤러의 임베딩 공간 내 거리가 실제 아키텍처 유사도를 어느 정도 반영하는가?
  • RQ5임베딩 거리와 아키텍처 간 검증 성능 차이 사이에 상관관계가 있는가?

주요 결과

  • ENAS 컨트롤러의 은닉 상태는 아키텍처 유사도 측정값과 상관관계가 없어, 아키텍처의 구조적 의존성을 학습하지 못함을 나타낸다.
  • 가중치 공유를 사용한 무작위 탐색과 ENAS의 성능가 유사하여, 성능 향상 요인이 지능적인 아키텍처 탐색이 아니라 가중치 공유에 의한 혼동 때문임을 시사한다.
  • 제안된 지도 학습 정규화 기법은 컨트롤러 은닉 상태와 아키텍처 유사도 간의 상관계수를 높였으며, 특히 공통 활성화 함수(피어슨 상관계수 r = -0.404)와 성능 차이(r = 0.163)에서 두드러진 향상을 보였다.
  • 지도 학습 컨트롤러는 다양한 아키텍처에서 은닉 상태에 명백한 변동성을 보였지만, 비지도 학습 컨트롤러는 단일 결정론적 출력으로 붕괴되어 있었다.
  • 정규화 적용 시, 가장 가능성 높은 행동의 확률이 과거 결정에 의존하게 되어, 과거 선택에 대한 조건부 조건부 조건이 향상됨을 나타낸다.
  • 결과는 가중치 공유 기법에만 의존하는 것이 아니라, 더 나은 컨트롤러 설계를 통해 NAS 성능을 향상시킬 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.