QUICK REVIEW

[논문 리뷰] Deeper Insights into Weight Sharing in Neural Architecture Search

Yuge Zhang, Zejun Lin|arXiv (Cornell University)|2020. 01. 06.

Advanced Neural Network Applications참고 문헌 30인용 수 35

한 줄 요약

본 논문은 가중치 공유 NAS를 경험적으로 분석하여 자식 모델의 순위에서 높은 불안정성과 분산을 보이고, 부분 가중치 공유가 순위를 안정시키고 성능을 향상시킬 수 있음을 보여준다.

ABSTRACT

With the success of deep neural networks, Neural Architecture Search (NAS) as a way of automatic model design has attracted wide attention. As training every child model from scratch is very time-consuming, recent works leverage weight-sharing to speed up the model evaluation procedure. These approaches greatly reduce computation by maintaining a single copy of weights on the super-net and share the weights among every child model. However, weight-sharing has no theoretical guarantee and its impact has not been well studied before. In this paper, we conduct comprehensive experiments to reveal the impact of weight-sharing: (1) The best-performing models from different runs or even from consecutive epochs within the same run have significant variance; (2) Even with high variance, we can extract valuable information from training the super-net with shared weights; (3) The interference between child models is a main factor that induces high variance; (4) Properly reducing the degree of weight sharing could effectively reduce variance and improve performance.

연구 동기 및 목표

가중치 공유가 NAS의 정확도와 안정성에 미치는 영향을 다수의 실행과 에포크에 걸쳐 평가한다.
공유 가중치를 갖는 슈퍼넷에서 자식 모델 간의 분산과 간섭을 정량화한다.
불안정성을 야기하는 메커니즘을 식별하고 이를 감소시키기 위한 전략을 탐구한다.
NAS 성능을 향상시키기 위한 부분 가중치 공유 방식의 제안과 평가.

제안 방법

그라운드 트루스 비교를 가능하게 하기 위해 64개의 가능한 자식 모델을 가진 축소된 NAS 탐색 공간을 구축한다.
공유 가중치를 갖는 단일 슈퍼넷을 훈련시키고 검증 세트에서 모든 자식 모델을 평가한다.
개별적으로 각 자식 모델을 독립적으로 훈련시켜 얻은 그라운드 트루스 성능과 공유 가중치 성능을 비교한다.
랭크 안정성을 측정하기 위해 Kendall의 tau를 사용하고 (S-Tau, GT-Tau)와 Top-n-Rank를 통해 최상위 모델 탐색을 평가한다.
슈퍼넷 훈련 동안 자식 모델 간의 미니배치별 간섭 분석을 통해 분산의 원인을 조사한다.
그룹 공유와 프리픽스 공유를 포함한 부분 가중치 공유를 실험하여 분산을 줄이고 랭크에 미치는 영향을 연구한다.

실험 결과

연구 질문

RQ1다수의 실행이나 에포크에 걸쳐 가중치 공유를 사용할 때 자식 모델의 랭크가 얼마나 안정적인가?
RQ2슈퍼넷의 공유 가중치가 처음부터 다시 학습하는 것과 비교하여 성능이 높은 자식 모델 선택에 어느 정도 정보를 제공할 수 있는가?
RQ3가중치 공유 하에서 자식 모델 간의 주요 분산 및 간섭의 원인은 무엇인가?
RQ4가중치 공유의 정도를 줄이는 것(부분 공유)이 안정성과 그라운드 트루스 성능과의 정렬을 개선할 수 있는가?

주요 결과

가중치 공유 하에서 자식 모델의 순위가 실행과 에포크에 걸쳐 매우 불안정하다.
공유 가중치 학습은 따라갈 수는 있지만 그라운드 트루스 순위를 도달하지 못하고 상당한 분산이 존재한다.
동시 학습되는 자식 모델 간 간섭은 순위 불안정성의 주요 원인이다.
부분 가중치 공유 전략(그룹화, 유사도 기반 그룹화, 프리픽스 공유)은 분산을 줄이고 그라운드 트루스에 가까운 랭크를 얻을 수 있으며 다양한 계산 비용 절충이 있다.
슈퍼넷의 스냅샷에서 자식 모델을 파인튜닝하는 것이 추가 학습이 제한적이더라도 랭킹 품질을 크게 개선할 수 있다.]
table_headers:[]
table_rows:[]

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.