Skip to main content
QUICK REVIEW

[논문 리뷰] MorphNet: Fast & Simple Resource-Constrained Structure Learning of Deep Networks

Ariel Gordon, Elad Eban|arXiv (Cornell University)|2017. 11. 18.
Domain Adaptation and Few-Shot Learning참고 문헌 31인용 수 48
한 줄 요약

MorphNet는 활성화 기반 흐트러짐 정규화를 사용하여 반복적으로 네트워크를 수축시키고 확장함으로써 자동으로 최적의 딥 네트워크 구조를 학습하는 확장성 있고 자원 제약이 있는 신경망 아키텍처 탐색 방법이다. 인퍼런스 시 동일한 FLOPs를 유지하면서 JFT에서 최대 2.1% 상대적 MAP 향상을 달성하여, Inception-v2나 MobileNet과 같은 수작업으로 설계된 모델보다 우수한 성능을 내며 추가적인 학습 비용이 최소한이다.

ABSTRACT

We present MorphNet, an approach to automate the design of neural network structures. MorphNet iteratively shrinks and expands a network, shrinking via a resource-weighted sparsifying regularizer on activations and expanding via a uniform multiplicative factor on all layers. In contrast to previous approaches, our method is scalable to large networks, adaptable to specific resource constraints (e.g. the number of floating-point operations per inference), and capable of increasing the network's performance. When applied to standard network architectures on a wide variety of datasets, our approach discovers novel structures in each domain, obtaining higher performance while respecting the resource constraint.

연구 동기 및 목표

  • 특정 하드웨어 및 효율성 제약 조건 하에서 딥 네트워크 아키텍처 설계를 자동화하는 것.
  • 기존의 흐트러짐 기반 방법들이 FLOPs와 같은 특정 계산 자원을 목표로 하지 않는 한계를 해결하는 것.
  • 사용자가 정의한 자원 예산을 준수하면서도 성능을 향상시키는 확장성 있고 일반적인 방법을 개발하는 것.
  • 도메인 전문 지식이나 광범위한 시도-오류 과정 없이도 수작업으로 설계된 아키텍처를 능가하는 자동적인 아키텍처 탐색을 가능하게 하는 것.

제안 방법

  • MorphNet는 네트워크 활성화에 자원 가중 흐트러짐 정규화를 적용하여 중요도가 낮은 뉴런을 반복적으로 제거한다.
  • 최적화 중에 모든 레이어에 동일한 승수 인자를 적용하여 네트워크를 확장한다.
  • 특정 자원(예: FLOPs 또는 모델 크기)을 목표로 하기 위해, 목표 자원에서의 이탈을 처벌하는 정규화 함수 G를 설계한다.
  • 흐트러짐 정규화를 통한 수축과 스케일링을 통한 확장을 번갈아가며 효율적으로 아키텍처 공간을 탐색하고 최적화한다.
  • 각 아키텍처에 대해 단일 또는 소수의 학습 반복만을 적용하므로 계산적으로 효율적이다.
  • 잔차 블록 내의 모든 필터가 제거될 경우 자연스럽게 전체 레이어를 제거할 수 있으며, 추가적인 논리가 필요하지 않다.

실험 결과

연구 질문

  • RQ1엄격한 FLOPs 제약 조건 하에서 성능 향상을 달성할 수 있는 단순하고 확장 가능한 방법이 자동으로 개선된 DNN 아키텍처를 탐색할 수 있는가?
  • RQ2다른 자원(예: FLOPs 대비 모델 크기)을 목표로 할 경우, 결과로 도출된 네트워크 아키텍처와 성능에 어떤 영향을 미치는가?
  • RQ3MorphNet는 기준 모델과 동일한 계산 비용을 유지하면서 JFT나 AudioSet과 같은 대규모 데이터셋에서 성능 향상을 이룰 수 있는가?
  • RQ4MorphNet는 동일한 FLOP 제약 조건 하에서 Inception-v2나 MobileNet과 같은 수작업으로 설계된 모델을 능가할 수 있는가?
  • RQ5기존의 NAS 방법이 수개월에 걸쳐 GPU 시간을 소모하는 데 비해, MorphNet는 훈련 비용을 얼마나 줄일 수 있는가?

주요 결과

  • JFT 데이터셋(350M 장, 20,000개 클래스)에서 MorphNet는 동일한 인퍼런스 FLOPs를 유지하면서 MAP에 대해 2.1% 상대적 향상을 달성했다.
  • ImageNet에서 MorphNet는 Inception-v2의 정확도를 FLOPs를 증가시키지 않고도 1.1% 향상시켜 원래의 수작업으로 설계된 아키텍처를 뛰어넘었다.
  • 50% FLOPs 제약 조건 하에서 MobileNet을 적용한 경우, MorphNet는 상대 정확도 향상으로 1.78% 향상을 기록하여 이미 최적화된 모델에 대해서도 효과적임을 입증했다.
  • FLOPs를 목표로 할 경우, MorphNet는 초기에 계산량이 많은 레이어를 제거했고, 모델 크기를 목표로 할 경우 후기 레이어의 파rameter가 많은 3×3 컨볼루션을 제거했다.
  • 각 제약 조건에 맞게 구조적으로 다른 개선된 아키텍처를 탐색했으며, 이는 제약 조건에 맞춘 타겟팅이 더 나은 트레이드오���을 이끌 수 있음을 보여준다.
  • MorphNet의 총 훈련 비용은 단일 기준 모델을 훈련하는 것보다 약 5% 높을 뿐이며, 수개월에 걸쳐 GPU 시간을 소모하는 기존의 NAS 방법에 비해 매우 효율적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.