Skip to main content
QUICK REVIEW

[논문 리뷰] Once-for-All: Train One Network and Specialize it for Efficient Deployment

Han Cai, Chuang Gan|arXiv (Cornell University)|2019. 08. 26.
Advanced Neural Network Applications참고 문헌 38인용 수 679
한 줄 요약

OFA는 retraining 없이 다양한 하드웨어에 맞춰 여러 서브 네트워크로 specializing하는 단일의 유연한 네트워크를 학습시켜, 다양한 기기에서의 효율적 배치를 가능하게 하면서 정확도를 유지한다.

ABSTRACT

We address the challenging problem of efficient inference across many devices and resource constraints, especially on edge devices. Conventional approaches either manually design or use neural architecture search (NAS) to find a specialized neural network and train it from scratch for each case, which is computationally prohibitive (causing $CO_2$ emission as much as 5 cars' lifetime) thus unscalable. In this work, we propose to train a once-for-all (OFA) network that supports diverse architectural settings by decoupling training and search, to reduce the cost. We can quickly get a specialized sub-network by selecting from the OFA network without additional training. To efficiently train OFA networks, we also propose a novel progressive shrinking algorithm, a generalized pruning method that reduces the model size across many more dimensions than pruning (depth, width, kernel size, and resolution). It can obtain a surprisingly large number of sub-networks ($> 10^{19}$) that can fit different hardware platforms and latency constraints while maintaining the same level of accuracy as training independently. On diverse edge devices, OFA consistently outperforms state-of-the-art (SOTA) NAS methods (up to 4.0% ImageNet top1 accuracy improvement over MobileNetV3, or same accuracy but 1.5x faster than MobileNetV3, 2.6x faster than EfficientNet w.r.t measured latency) while reducing many orders of magnitude GPU hours and $CO_2$ emission. In particular, OFA achieves a new SOTA 80.0% ImageNet top-1 accuracy under the mobile setting ($<$600M MACs). OFA is the winning solution for the 3rd Low Power Computer Vision Challenge (LPCVC), DSP classification track and the 4th LPCVC, both classification track and detection track. Code and 50 pre-trained models (for many devices & many latency constraints) are released at https://github.com/mit-han-lab/once-for-all.

연구 동기 및 목표

  • 다양한 하드웨어에 대한 재학습 및 비용 최소화를 통한 효율적 배치의 필요성을 자극한다.
  • 깊이, 폭, 커널 크기, 해상도 등의 다양한 아키텍처 구성을 지원하는 하나의 Once-for-All 네트워크를 소개한다.
  • 각 배치 시나리오마다 재학습 없이도 정확한 서브 네트워크를 얻을 수 있는 학습 체계를 제안한다.

제안 방법

  • 깊이(depth), 폭(width), 커널 크기(kernel size), 해상도(resolution)를 포함하는 탄력적인 아키텍처 공간을 정의하여 서브 네트워크에 매핑한다.
  • 가중치를 공유하면서 더 작은 서브 네트워크를 점진적으로 지원하도록 큰 OFA 네트워크를 학습시킨다.
  • 중첩된 서브 네트워크들 간의 학습을 안정시키기 위해 지식 증류를 사용한다.
  • 전문화 과정에서 신경망 트윈(neural-network-twins; 정확도 예측기와 지연(latency) 조회)을 구축하여 하드웨어 제약별 최적의 서브 네트워크를 찾기 위한 진화적 탐색을 안내한다.
  • 배포 시나리오 전반에서 비용을 O(N)에서 O(1)으로 감소시키도록 학습과 탐색을 분리한다.

실험 결과

연구 질문

  • RQ1단일 OFA 네트워크가 ( >10^19 )개의 매우 큰 수의 서브 네트워크를 지원하면서도 독립적으로 학습된 네트워크에 비해 유사한 정확도를 유지할 수 있는가?
  • RQ2진행식 축소가 공동 학습 중 서브 네트워크 간 간섭을 효과적으로 완화하는가?
  • RQ3예측자 주도 탐색(neural-network twins)이 다양한 하드웨어에 대해 거의 비용 없이 최적의 서브 네트워크를 효율적으로 식별할 수 있는가?
  • RQ4클라우드 및 엣지 디바이스에서 OFA가 최신 하드웨어 인식 NAS 방법과 비교했을 때 정확도, 지연, 에너지 발자국 측면에서 어떠한 성능을 보이는가?

주요 결과

  • OFA는 SOTA 하드웨어 인식 NAS 방법과 비교하여 여러 하드웨어 플랫폼에서 우수한 정확도-지연 절충을 달성한다.
  • ImageNet 모바일 설정(<600M MACs)에서 OFA는 595M MACs로 80.0% top-1 정확도를 달성하며 새로운 모바일 SOTA이다.
  • OFA는 다양한 배포 시나리오를 지원할 때 NAS 방법에 비해 학습 및 설계 비용을 수 차례 낮추고 CO2 배출량을 줄인다.
  • 진행식 축소는 큰 서브 네트워크 공간(>10^19 아키텍처)을 효율적으로 학습 가능하게 하며 독립적으로 학습된 서브 네트워크와 비슷한 정확도를 유지한다.
  • 다양한 장치(CPU, GPU, FPGA, 모바일)에서의 특화된 OFA 서브 네트워크는 비슷한 지연에서 MobileNetV2/MnasNet/타사보다 일관되게 우수하며, 새로운 하드웨어에 대해 추가 학습이 거의 필요하지 않다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.