Skip to main content
QUICK REVIEW

[논문 리뷰] Deeper Insights into Weight Sharing in Neural Architecture Search

Yuge Zhang, Zejun Lin|arXiv (Cornell University)|2020. 01. 06.
Advanced Neural Network Applications참고 문헌 30인용 수 35
한 줄 요약

본 논문은 가중치 공유 NAS를 경험적으로 분석하여 자식 모델의 순위에서 높은 불안정성과 분산을 보이고, 부분 가중치 공유가 순위를 안정시키고 성능을 향상시킬 수 있음을 보여준다.

ABSTRACT

With the success of deep neural networks, Neural Architecture Search (NAS) as a way of automatic model design has attracted wide attention. As training every child model from scratch is very time-consuming, recent works leverage weight-sharing to speed up the model evaluation procedure. These approaches greatly reduce computation by maintaining a single copy of weights on the super-net and share the weights among every child model. However, weight-sharing has no theoretical guarantee and its impact has not been well studied before. In this paper, we conduct comprehensive experiments to reveal the impact of weight-sharing: (1) The best-performing models from different runs or even from consecutive epochs within the same run have significant variance; (2) Even with high variance, we can extract valuable information from training the super-net with shared weights; (3) The interference between child models is a main factor that induces high variance; (4) Properly reducing the degree of weight sharing could effectively reduce variance and improve performance.

연구 동기 및 목표

  • 가중치 공유가 NAS의 정확도와 안정성에 미치는 영향을 다수의 실행과 에포크에 걸쳐 평가한다.
  • 공유 가중치를 갖는 슈퍼넷에서 자식 모델 간의 분산과 간섭을 정량화한다.
  • 불안정성을 야기하는 메커니즘을 식별하고 이를 감소시키기 위한 전략을 탐구한다.
  • NAS 성능을 향상시키기 위한 부분 가중치 공유 방식의 제안과 평가.

제안 방법

  • 그라운드 트루스 비교를 가능하게 하기 위해 64개의 가능한 자식 모델을 가진 축소된 NAS 탐색 공간을 구축한다.
  • 공유 가중치를 갖는 단일 슈퍼넷을 훈련시키고 검증 세트에서 모든 자식 모델을 평가한다.
  • 개별적으로 각 자식 모델을 독립적으로 훈련시켜 얻은 그라운드 트루스 성능과 공유 가중치 성능을 비교한다.
  • 랭크 안정성을 측정하기 위해 Kendall의 tau를 사용하고 (S-Tau, GT-Tau)와 Top-n-Rank를 통해 최상위 모델 탐색을 평가한다.
  • 슈퍼넷 훈련 동안 자식 모델 간의 미니배치별 간섭 분석을 통해 분산의 원인을 조사한다.
  • 그룹 공유와 프리픽스 공유를 포함한 부분 가중치 공유를 실험하여 분산을 줄이고 랭크에 미치는 영향을 연구한다.

실험 결과

연구 질문

  • RQ1다수의 실행이나 에포크에 걸쳐 가중치 공유를 사용할 때 자식 모델의 랭크가 얼마나 안정적인가?
  • RQ2슈퍼넷의 공유 가중치가 처음부터 다시 학습하는 것과 비교하여 성능이 높은 자식 모델 선택에 어느 정도 정보를 제공할 수 있는가?
  • RQ3가중치 공유 하에서 자식 모델 간의 주요 분산 및 간섭의 원인은 무엇인가?
  • RQ4가중치 공유의 정도를 줄이는 것(부분 공유)이 안정성과 그라운드 트루스 성능과의 정렬을 개선할 수 있는가?

주요 결과

  • 가중치 공유 하에서 자식 모델의 순위가 실행과 에포크에 걸쳐 매우 불안정하다.
  • 공유 가중치 학습은 따라갈 수는 있지만 그라운드 트루스 순위를 도달하지 못하고 상당한 분산이 존재한다.
  • 동시 학습되는 자식 모델 간 간섭은 순위 불안정성의 주요 원인이다.
  • 부분 가중치 공유 전략(그룹화, 유사도 기반 그룹화, 프리픽스 공유)은 분산을 줄이고 그라운드 트루스에 가까운 랭크를 얻을 수 있으며 다양한 계산 비용 절충이 있다.
  • 슈퍼넷의 스냅샷에서 자식 모델을 파인튜닝하는 것이 추가 학습이 제한적이더라도 랭킹 품질을 크게 개선할 수 있다.]
  • table_headers:[]
  • table_rows:[]

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.