Skip to main content
QUICK REVIEW

[논문 리뷰] Understanding and Robustifying Differentiable Architecture Search

Arber Zela, Thomas Elsken|arXiv (Cornell University)|2019. 09. 20.
Domain Adaptation and Few-Shot Learning참고 문헌 47인용 수 166
한 줄 요약

논문은 DARTS가 많은 NAS 벤치마크에서 왜 실패하는지 분석하고, 아키텍처 매개변수의 해시안 곡률이 일반화와 연결되며, 조기 중지와 내부 목적 규화를 포함한 강건화된 DARTS 변형이 여러 탐색 공간과 과제에서 로버스트성을 개선한다는 점을 제시한다.

ABSTRACT

Differentiable Architecture Search (DARTS) has attracted a lot of attention due to its simplicity and small search costs achieved by a continuous relaxation and an approximation of the resulting bi-level optimization problem. However, DARTS does not work robustly for new problems: we identify a wide range of search spaces for which DARTS yields degenerate architectures with very poor test performance. We study this failure mode and show that, while DARTS successfully minimizes validation loss, the found solutions generalize poorly when they coincide with high validation loss curvature in the architecture space. We show that by adding one of various types of regularization we can robustify DARTS to find solutions with less curvature and better generalization properties. Based on these observations, we propose several simple variations of DARTS that perform substantially more robustly in practice. Our observations are robust across five search spaces on three image classification tasks and also hold for the very different domains of disparity estimation (a dense regression task) and language modelling.

연구 동기 및 목표

  • 표준 DARTS가 낮은 테스트 성능을 가진 퇴화된 아키텍처를 내놓는 NAS 벤치마크와 탐색 공간을 식별한다.
  • 아키텍처 매개변수에 대한 검증 손실의 해시안 고유값과 발견된 아키텍처의 일반화 간의 관계를 특성화한다.
  • 해시안 곡률에 기반한 조기 중지와 내부 목적의 규화를 포함하여 DARTS의 실용적 로버스트화를 개발하여 작업 전반에 걸친 로버스트성을 개선한다.
  • 이미지 분류, 시차 추정, 및 언어 모델링 영역에서 제안된 방법의 로버스트성을 시연한다.
  • 강건한 DARTS 변형의 채택을 가능하게 하는 재현 가능한 구현 및 스크립트를 제공한다.

제안 방법

  • DARTS 실패와 퇴화된 아키텍처를 관찰하기 위해 네 가지 탐색 공간에 걸친 12 NAS 벤치마크를 분석한다.
  • 아키텍처 매개변수에 대한 검증 손실의 해시안의 최대 고유값을 계산하여 곡률-일반화 연결을 연구한다.
  • 아키텍처 공간에서 급격한 최소값을 피하기 위해 지배적인 해시안 고유값이 증가할 때 DARTS의 조기 중지를 제안한다.
  • 해시안 곡률을 줄이기 위해 데이터 증강(Cutout, ScheduledDropPath)과 L2 정규화를 통해 DARTS 탐색 중 내부 목적을 규제한다.
  • 과도한 조정 없이 로버스트성을 향상시키는 실용적 로버스트화(DARTS-ES, DARTS-ADA, RobustDARTS)를 도입한다.
  • 이미지 분류(CIFAR-10/100, SVHN), 시차 추정, 및 Penn Treebank 언어 모델링에서 접근법을 검증한다.

실험 결과

연구 질문

  • RQ1표준 DARTS가 다양한 NAS 벤치마크에서 왜 퇴화된 아키텍처를 내놓는가?
  • RQ2아키텍처 매개변수 손실 평면의 곡률이 발견된 아키텍처의 일반화와 어떻게 관련되는가?
  • RQ3작업과 탐색 공간 전반에서 DARTS를 보다 로버스트하게 만드는 간단하고 실용적인 수정은 무엇인가?

주요 결과

  • 표준 DARTS는 여러 공간에서 건너뛰기(skip connections)나 해로운 연산에 지배되는 퇴화된 아키텍처를 선택하는 경향이 있다.
  • 아키텍처 매개변수에 대한 검증 손실의 지배적 해시안 고유값과 최종 아키텍처의 테스트 오차 사이에 강한 상관관계가 존재한다.
  • 해시안 곡률(지배적 고유값 추적)에 기반한 조기 중지는 로버스트성을 크게 개선하고 탐색 시간을 단축한다.
  • 데이터 증강과 증가된 L2 정규화를 통한 내부 목적 규제는 해시안 곡률을 낮추고 발견된 아키텍처의 일반화를 개선한다.
  • 실용적 로버스트화(DARTS-ES, DARTS-ADA, RobustDARTS)는 대부분의 벤치마크와 작업에서 표준 DARTS나 무작위 탐색 기준선보다 더 나은 테스트 성능을 달성한다.
  • RobustDARTS는 원래의 공간에서 원래 DARTS와 경쟁력을 유지하는 한편 다른 데이터셋(CIFAR-100, SVHN)에서는 DARTS를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.