QUICK REVIEW

[논문 리뷰] Once-for-All: Train One Network and Specialize it for Efficient Deployment on Diverse Hardware Platforms

Han Cai, Chuang Gan|arXiv (Cornell University)|2019. 08. 26.

Advanced Neural Network Applications인용 수 6

한 줄 요약

이 논문은 재학습 없이 다양한 하드웨어 플랫폼에 효율적으로 특화될 수 있는 단일 신경망 아키텍처인 Once-for-All (OFA)을 제안한다. 학습과 탐색을 분리하고 점진적 축소 기법을 사용함으로써, 동일한 정확도를 유지하는 10^19개 이상의 하위망을 생성하며, GPU 시간과 이산화탄소 배출량을 수개월 단위로 줄여 600M MACs 이내에서 SOTA 80.0% ImageNet top-1 정확도를 달성한다.

ABSTRACT

We address the challenging problem of efficient inference across many devices and resource constraints, especially on edge devices. Conventional approaches either manually design or use neural architecture search (NAS) to find a specialized neural network and train it from scratch for each case, which is computationally prohibitive (causing $CO_2$ emission as much as 5 cars' lifetime) thus unscalable. In this work, we propose to train a once-for-all (OFA) network that supports diverse architectural settings by decoupling training and search, to reduce the cost. We can quickly get a specialized sub-network by selecting from the OFA network without additional training. To efficiently train OFA networks, we also propose a novel progressive shrinking algorithm, a generalized pruning method that reduces the model size across many more dimensions than pruning (depth, width, kernel size, and resolution). It can obtain a surprisingly large number of sub-networks ($> 10^{19}$) that can fit different hardware platforms and latency constraints while maintaining the same level of accuracy as training independently. On diverse edge devices, OFA consistently outperforms state-of-the-art (SOTA) NAS methods (up to 4.0% ImageNet top1 accuracy improvement over MobileNetV3, or same accuracy but 1.5x faster than MobileNetV3, 2.6x faster than EfficientNet w.r.t measured latency) while reducing many orders of magnitude GPU hours and $CO_2$ emission. In particular, OFA achieves a new SOTA 80.0% ImageNet top-1 accuracy under the mobile setting ($<$600M MACs). OFA is the winning solution for the 3rd Low Power Computer Vision Challenge (LPCVC), DSP classification track and the 4th LPCVC, both classification track and detection track. Code and 50 pre-trained models (for many devices & many latency constraints) are released at this https URL.

연구 동기 및 목표

각 엣지 디바이스와 지연 시간 제약 조건에 맞게 별도의 신경망을 학습하는 데 드는 높은 계산 비용과 환경적 영향을 해결하기 위해.
기존의 NAS와 수작업 아키텍처 설계의 확장성 한계를 극복하여 다양한 하드웨어 플랫폼에 효율적으로 배포할 수 있도록 하기 위해.
기존 방법과 비교해 훨씬 짧은 학습 시간과 탄소 발자국을 유지하면서도 높은 정확도를 확보하는 방법을 개발하기 위해.
각 하드웨어 구성에 대해 재학습 없이도 빠른 추론 특화를 가능하게 하기 위해 단일 사전 학습된 네트워크를 제공하기 위해.

제안 방법

깊이, 너비, 커널 크기, 해상도 등 다양한 아키텍처 구성 요소를 동시에 지원하는 단일 통합 학습 과정을 통해 다양한 아키텍처 설정을 허용하는 Once-for-All (OFA) 신경망을 제안한다.
다양한 차원에서 동시에 모델 크기를 줄이는 일반화된 프루닝 방법인 점진적 축소 알고리즘을 도입하여 OFA 네트워크의 효율적 학습을 가능하게 한다.
학습 단계와 아키텍처 탐색 단계를 분리함으로써, 사전 학습된 OFA 네트워크에서 추가 학습 없이도 하위망을 직접 선택할 수 있도록 한다.
깊이, 너비, 커널 크기, 입력 해상도 등 여러 차원에서 네트워크 용량을 점진적으로 감소시키는 점진적 축소 스케줄을 사용해 OFA 네트워크를 학습한다.
모든 하위망이 미세조정 없이도 독립적으로 학습된 모델과 동일한 정확도를 유지함을 보장한다.
단일 대규모 학습 프로세스를 통해 광범위한 하위망을 암묵적으로 학습함으로써, 다양한 하드웨어 제약 조건에 빠르게 배포할 수 있도록 한다.

실험 결과

연구 질문

RQ1한 번의 학습으로 여러 하드웨어 플랫폼에 재학습 없이 효율적으로 특화시킬 수 있는 단일 신경망을 설계할 수 있는가?
RQ2점진적 축소와 같은 일반화된 프루닝 방법이 수많은 하위망 구성에서 높은 정확도를 유지하면서도 학습 비용을 줄일 수 있는가?
RQ3OFA 접근법은 엄격한 모바일 추론 제약 조건(예: 600M MACs 이하)에서 SOTA 성능을 달성하면서도 이산화탄소 배출량을 극적으로 줄일 수 있는가?
RQ4OFA의 성능은 기존의 NAS 및 수작업 설계된 모델 대비 엣지 디바이스에서 정확도, 지연 시간, 효율성 측면에서 어떻게 비교되는가?
RQ5OFA 프레임워크는 정확도를 훼손하지 않고 다양한 하드웨어와 지연 시간 제약 조건을 지원하기 위해 얼마나 넓게 확장될 수 있는가?

주요 결과

OFA는 600M 이하의 MACs로 제한된 모바일 환경에서 최신 기준인 80.0% ImageNet top-1 정확도를 달성한다.
OFA는 MobileNetV3 대비 ImageNet에서 최대 4.0% 높은 top-1 정확도를 기록하면서도 지연 시간 효율성을 유지하거나 향상시킨다.
OFA는 측정된 지연 시간 제약 조건 하에서 MobileNetV3 대비 1.5배, EfficientNet 대비 2.6배 더 빠른 추론 속도를 확보한다.
OFA 프레임워크는 독립적으로 학습된 모델과 동일한 정확도를 유지하는 10^19개 이상의 고유한 하위망을 생성하여 광범위한 하드웨어 호환성을 확보한다.
기존의 NAS나 수작업 아키텍처 탐색 방법과 비교해 OFA가 GPU 학습 시간과 이산화탄소 배출량을 수개월 단위로 줄였다.
OFA는 제3회 및 제4회 저전력 컴퓨터 비전 챌린지(LPCVC)에서 분류 및 검출 트랙 모두에서 우승한 솔루션으로, 실제 적용 가능성과 효과를 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.