[논문 리뷰] Blockwisely Supervised Neural Architecture Search with Knowledge Distillation
이 논문은 파라미터 공유로 인한 오차를 줄이기 위해 신경망 아키텍처 탐색을 모듈러 블록으로 나누는 데 중점을 두고, 지식 정렬을 통한 블록별로 감독받는 신경망 아키텍처 탐색(DNA)을 제안한다. 이 방법은 후보 아키텍처의 전체적이고 공정한 훈련을 가능하게 하여, 기존의 일사성 NAS 방법의 비효율성과 정확도 부족 문제를 해결한다. 특징 맵 매칭을 통해 교사 모델의 아키텍처 지식을 정렬함으로써, DNA는 모바일 환경에서 ImageNet에서 최신 기준인 78.4%의 top-1 정확도를 달성하며, EfficientNet-B0를 2.1% 뛰어넘는 성능을 보이며, 오히려 교사 모델보다도 높은 성능을 기록한다.
Neural Architecture Search (NAS), aiming at automatically designing network architectures by machines, is hoped and expected to bring about a new revolution in machine learning. Despite these high expectation, the effectiveness and efficiency of existing NAS solutions are unclear, with some recent works going so far as to suggest that many existing NAS solutions are no better than random architecture selection. The inefficiency of NAS solutions may be attributed to inaccurate architecture evaluation. Specifically, to speed up NAS, recent works have proposed under-training different candidate architectures in a large search space concurrently by using shared network parameters; however, this has resulted in incorrect architecture ratings and furthered the ineffectiveness of NAS. In this work, we propose to modularize the large search space of NAS into blocks to ensure that the potential candidate architectures are fully trained; this reduces the representation shift caused by the shared parameters and leads to the correct rating of the candidates. Thanks to the block-wise search, we can also evaluate all of the candidate architectures within a block. Moreover, we find that the knowledge of a network model lies not only in the network parameters but also in the network architecture. Therefore, we propose to distill the neural architecture (DNA) knowledge from a teacher model as the supervision to guide our block-wise architecture search, which significantly improves the effectiveness of NAS. Remarkably, the capacity of our searched architecture has exceeded the teacher model, demonstrating the practicability and scalability of our method. Finally, our method achieves a state-of-the-art 78.4\% top-1 accuracy on ImageNet in a mobile setting, which is about a 2.1\% gain over EfficientNet-B0. All of our searched models along with the evaluation code are available online.
연구 동기 및 목표
- 공유 가중치가 부적절하게 훈련된 상태에서 평가하는 기존 일사성 NAS 방법의 비효율성과 정확도 부족 문제를 해결하기 위해.
- 검색 공간을 블록으로 모듈화하여 각 블록 내에서 후보 아키텍처의 전체적이고 공정한 훈련을 가능하게 하여 NAS의 효과성을 향상시키기 위해.
- 탐색 과정에서의 감독 부족 문제를 해결하기 위해, 교사 모델의 특징 맵에서 지식을 전이하는 새로운 아키텍처 정렬 방법을 도입하기 위해.
- 검색된 아키텍처가 교사 모델의 성능을 뛰어넘을 수 있도록 하여, 확장성과 실용성을 입증하기 위해.
제안 방법
- 검색 공간이 이산적인 블록들로 분해되며, 각 블록은 아키텍처 선택의 일부를 포함하여, 블록 내 모든 후보 아키텍처의 전체 훈련이 가능하도록 한다.
- 교사 모델의 특징 맵을 매칭하여 지식을 전이하는 새로운 정렬 방법인 DNA를 도입하며, 학생과 교사 활성화 간의 MSE 손실을 사용한다.
- 학생 슈퍼넷이 각 블록의 입력으로 교사의 특징 맵을 사용하여 블록 단위로 훈련되며, 이로써 검색 과정 중 아키텍처 지식이 유지된다.
- 채널과 깊이의 다양성을 높여 검색 능력을 향상시키기 위해 다중셀 슈퍼넷 설계를 도입한다.
- 진행적이고 블록 단위의 훈련 및 평가 전략을 사용하며, 각 블록의 아키텍처는 전체 훈련과 정렬 가이드라인에 기반해 선택된다.
- 최종 아키텍처는 교사 모델의 감독 없이 다시 시작하여 훈련되며, 이는 방법의 일반화 능력과 확장성을 검증한다.
실험 결과
연구 질문
- RQ1검색 공간을 블록으로 모듈화하면 일사성 NAS에서 아키텍처 평가의 정확도와 신뢰도가 향상되는가?
- RQ2교사 모델의 특징 맵에서 아키텍처 지식을 정렬하면 블록 단위 아키텍처 탐색의 효과성이 향상되는가?
- RQ3교사 모델이 최고 성능을 내는 아키텍처가 아니더라도, 검색된 아키텍처가 교사 모델의 성능을 뛰어넘을 수 있는가?
- RQ4모델 크기에 따라 검색된 아키텍처의 성능는 어떻게 변화하며, 더 큰 교사 모델을 초월할 수 있는가?
주요 결과
- 제안된 DNA 방법은 모바일 환경에서 ImageNet에서 최신 기준인 78.4%의 top-1 정확도를 달성하며, EfficientNet-B0를 2.1% 뛰어넘는다.
- 528만 파라미터를 가진 검색된 모델(DNA-B7)은 77.8%의 top-1 정확도를 기록하며, 6600만 파라미터를 가진 더 큰 EfficientNet-B7 교사 모델의 성능을 그대로 따라간다.
- 6490만 파라미터로 확장했을 때 DNA-B7 모델은 79.9%의 top-1 정확도를 달성하며, 6600만 파라미터의 교사 모델을 2.1% 뛰어넘는다.
- 교사의 품질에 대해 강건함을 입증: EfficientNet-B0를 교사로 사용했을 때, 동일한 파라미터 수로 DNA-B0 모델이 교사보다 1.5% 높은 성능을 기록한다.
- 제거 분석 결과, 다중셀 검색과 정렬 전략이 정확도 향상에 크게 기여하며, 제안된 정렬 방법은 S1 및 S2 기준 모델보다 각각 0.3%와 0.2% 높은 성능을 기록한다.
- 학생 슈퍼넷은 요약된 14×14 특징 맵조차도 모든 채널과 공간 차원에서 교사의 특징 맵을 효과적으로 모방하며, 효과적인 지식 전이를 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.