[논문 리뷰] Rethinking Architecture Selection in Differentiable NAS
논문은 differentiable NAS에서 전통적인 크기 기반 선택(α)이 오해를 불러일으킬 수 있음을 주장하고, 각 연산의 슈퍼넷 성능 기여도를 평가하는 perturbation-based architecture selection(PT)을 도입하여 일관되게 더 나은 구조를 얻고 DARTS의 강건성 문제를 완화한다.
Differentiable Neural Architecture Search is one of the most popular Neural Architecture Search (NAS) methods for its search efficiency and simplicity, accomplished by jointly optimizing the model weight and architecture parameters in a weight-sharing supernet via gradient-based algorithms. At the end of the search phase, the operations with the largest architecture parameters will be selected to form the final architecture, with the implicit assumption that the values of architecture parameters reflect the operation strength. While much has been discussed about the supernet's optimization, the architecture selection process has received little attention. We provide empirical and theoretical analysis to show that the magnitude of architecture parameters does not necessarily indicate how much the operation contributes to the supernet's performance. We propose an alternative perturbation-based architecture selection that directly measures each operation's influence on the supernet. We re-evaluate several differentiable NAS methods with the proposed architecture selection and find that it is able to extract significantly improved architectures from the underlying supernets consistently. Furthermore, we find that several failure modes of DARTS can be greatly alleviated with the proposed selection method, indicating that much of the poor generalization observed in DARTS can be attributed to the failure of magnitude-based architecture selection rather than entirely the optimization of its supernet.
연구 동기 및 목표
- differentiable NAS에서 아키텍처 매개변수의 크기가 각 연산의 강도를 반영하는지 평가한다.
- 크기 기반 선택의 실패 모드 분석(예: 스킵 연결 지배).
- 각 연산이 슈퍼넷 성능에 미치는 영향을 측정하는 perturbation-based 아키텍처 선택(PT)을 제안하고 평가한다.
- PT의 효과를 DARTS, SDARTS, SGAS 및 NAS-Bench-201에서 입증한다.
제안 방법
- 수렴 시 이산화 정확도로 연산 강도를 정의하고 이는 α와 어긋날 수 있음을 보인다.
- 연산 강도 측정으로 perturbation-based 강도 측정을 제안: 간선에서 각 연산을 제거하고 검증 정확도에 미치는 영향을 측정한다.
- Algorithm 1(perturbation-based architecture selection)을 개발: 간선을 순회하며 ACC 감소로 최적 연산을 선택하고 이산화한 뒤 미세 조정한다.
- 계산량을 줄이기 위해 각 연산을 제거하고 ACC 감소를 관찰하여 연산 중요도를 선택적으로 측정한다.
- DARTS, SDARTS(rs), SGAS의 pretrained 슈퍼넷에 perturbation-based 선택을 적용해 최종 아키텍처를 도출한다.
- PT와 함께 α-없는 학습(균일한 α)이 전통적 DARTS 성능을 따라가거나 이를 능가할 수 있음을 보여준다.
실험 결과
연구 질문
- RQ1아키텍처 매개변수 α의 크기가 각 연산의 기여를 신뢰성 있게 나타내는가?
- RQ2perturbation-based 기준이 강한 연산을 더 잘 식별하고 differentiable NAS 변형들 간의 아키텍처 선택을 안정화할 수 있는가?
- RQ3다양한 검색 공간에서 PT가 DARTS와 그 변형에서 관찰된 강건성 문제에 어떤 영향을 미치는가?
- RQ4전통적인 크기 기반 선택과 비교하여 CIFAR-10 및 NAS-Bench-201에 PT를 적용했을 때의 성능 영향은 무엇인가?
주요 결과
- Perturbation 기반 선택은 DARTS, SDARTS(rs), SGAS에서 크기 기반 선택보다 일관되게 더 나은 아키텍처를 산출한다.
- DARTS+PT는 CIFAR-10 테스트 에러를 3.00%(DARTS)에서 2.61%(평균) 및 2.48%(최고)로 개선한다.
- SDARTS-RS+PT는 CIFAR-10에서 2.54%(평균) 및 2.44%(최고)로 개선된다.
- NAS-Bench-201에서 DARTS 기준은 45.7% 테스트 에러를 보고하는 반면, DARTS+PT는 11.89%(평균) 및 6.20%(고정 α의 PT) 달성.
- DARTS+PT는 DARTS가 붕괴하는 공간에서 의미 있는 아키텍처를 추출할 수 있다(예: Zela et al. 2020의 S2, S4).
- PT를 사용하면서 α를 균일 가중치로 고정하면 일부 공간에서 경쟁력 있거나 더 나은 결과를 얻는 것으로 나타나, PT와 함께 α가 불필요할 수 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.