[논문 리뷰] Once-for-All: Train One Network and Specialize it for Efficient Deployment
한두 문장의 직접적 요약: 이 논문은 Once-for-All (OFA)를 소개합니다. 이는 깊이, 폭, 커널 크기, 해상도의 거대한 서브 네트워크 공간을 지원하는 하나의 학습된 네트워크로서, 다양한 하드웨어에 대해 빠르고 학습 없이 특화가 가능한 효율적인 점진적 축소 학습 체계를 제공합니다.
We address the challenging problem of efficient inference across many devices and resource constraints, especially on edge devices. Conventional approaches either manually design or use neural architecture search (NAS) to find a specialized neural network and train it from scratch for each case, which is computationally prohibitive (causing $CO_2$ emission as much as 5 cars' lifetime) thus unscalable. In this work, we propose to train a once-for-all (OFA) network that supports diverse architectural settings by decoupling training and search, to reduce the cost. We can quickly get a specialized sub-network by selecting from the OFA network without additional training. To efficiently train OFA networks, we also propose a novel progressive shrinking algorithm, a generalized pruning method that reduces the model size across many more dimensions than pruning (depth, width, kernel size, and resolution). It can obtain a surprisingly large number of sub-networks ($> 10^{19}$) that can fit different hardware platforms and latency constraints while maintaining the same level of accuracy as training independently. On diverse edge devices, OFA consistently outperforms state-of-the-art (SOTA) NAS methods (up to 4.0% ImageNet top1 accuracy improvement over MobileNetV3, or same accuracy but 1.5x faster than MobileNetV3, 2.6x faster than EfficientNet w.r.t measured latency) while reducing many orders of magnitude GPU hours and $CO_2$ emission. In particular, OFA achieves a new SOTA 80.0% ImageNet top-1 accuracy under the mobile setting ($
연구 동기 및 목표
- 다양한 하드웨어 전반에서 재학습 및 설계 비용 최소화로 효율적 배치를 동기 부여한다.
- 공유 가중치를 통해 많은 서브 아키텍처를 지원하는 단일의 Once-for-All 네트워크를 제안한다.
- 여러 차원(깊이, 폭, 커널 크기, 해상도)에서 OFA 네트워크를 학습시키기 위해 점진적 축소를 도입한다.
- 재학습 없이 대상 하드웨어에 대해 빠르게 예측자-유도 특화를 가능하게 한다.
제안 방법
- 깊이, 폭, 커널 크기, 해상도에 대한 탄력적 아키텍처 공간 정의.
- 가장 큰 네트워크를 먼저 학습한 뒤, 공통 가중치를 공유하며 점진적으로 더 작은 서브네트워크를 축소 지원한다.
- 축소하는 과정에서 정확도를 보존하기 위해 지식 증류를 사용한다.
- 서브네트워크 간 가중치를 공유하여 약 7.7M 파라미터로 10^19개 이상의 아키텍처를 커버한다.
- 빠른 하드웨어 인식 특화를 위한 정확도 예측자와 지연 예측자(신경망 트윈)를 학습한다.
- 예측자를 통해 가이드되는 서브네트워크에서 하드웨어 제약 조건을 충족하도록 진화적 탐색을 수행한다.
실험 결과
연구 질문
- RQ1단일 과도하게 파라미터화된 네트워크(OFA)가 배포마다 재학습 없이도 광대한 아키텍처 공간에서 정확한 서브네트워크를 제공할 수 있는가?
- RQ2점진적 축소가 공유 가중치를 가진 많은 서브네트워크를 재학습 없이도 효과적으로 학습시키며 정확도를 보존하는가?
- RQ3빠르고 예측자-유도 탐색이 서로 다른 기기에서 하드웨어 지연 시간과 정확도 목표를 충족하는 특화 서브네트워크를 식별할 수 있는가?
- RQ4OFA가 정확도, 지연, 학습 비용, 환경 영향 측면에서 NAS 방법과 비교하면 어떤 차이가 있는가?
주요 결과
| 모델 | ImageNet Top1 (%) | MACs | 모바일 지연 시간 | 검색 비용 | 훈련 비용 | 총 비용 (N=40) | CO2e (lbs) | AWS 비용 |
|---|---|---|---|---|---|---|---|---|
| MobileNetV2 [31] | 72.0 | 300M | 66ms | 0 | 150 N | 6k | 1.7k | $18.4k$ |
| MobileNetV2 #1200 | 73.5 | 300M | 66ms | 0 | 1200 N | 48k | 13.6k | $146.9k$ |
| NASNet-A | 74.0 | 564M | - | 48,000 N | - | 1,920k | 544.5k | $5875.2k$ |
| DARTS | 73.1 | 595M | - | 96 N | 250 N | 14k | 4.0k | $42.8k$ |
| MnasNet | 74.0 | 317M | 70ms | 40,000 N | - | 1,600k | 453.8k | $4896.0k$ |
| FBNet-C | 74.9 | 375M | - | 216 N | 360 N | 23k | 6.5k | $70.4k$ |
| ProxylessNAS | 74.6 | 320M | 71ms | 200 N | 300 N | 20k | 5.7k | $61.2k$ |
| SinglePathNAS | 74.7 | 328M | - | 288 + 24 N | 384 N | 17k | 4.8k | $52.0k$ |
| AutoSlim | 74.2 | 305M | 63ms | 180 | 300 N | 12k | 3.4k | $36.7k$ |
| MobileNetV3-Large | 75.2 | 219M | 58ms | - | 180 N | 7.2k | 1.8k | $22.2k$ |
| OFA w/o PS | 72.4 | 235M | 59ms | 40 | 1200 | 1.2k | 0.34k | $3.7k$ |
| OFA w/ PS | 76.0 | 230M | 58ms | 40 | 1200 | 1.2k | 0.34k | $3.7k$ |
| OFA w/ PS #25 | 76.4 | 230M | 58ms | 40 | 1200 + 25 N | 2.2k | 0.62k | $6.7k$ |
| OFA w/ PS #75 | 76.9 | 230M | 58ms | 40 | 1200 + 75 N | 4.2k | 1.2k | $13.0k$ |
| OFA Large w/ PS #75 | 80.0 | 595M | - | 40 | 1200 + 75 N | 4.2k | 1.2k | $13.0k$ |
- OFA는 단일 학습 네트워크로부터 유래된 서로 다른 하드웨어에서 강력한 ImageNet top-1 성능을 달성하며 서브네트워크를 제공합니다.
- 점진적 축소는 서로 다른 아키텍처 설정에서 독립적으로 서브네트워크를 학습하는 것에 비해 서브네트워크의 정확도를 크게 높입니다(예: (D=4, W=3, K=3)에서 226M MACs의 경우 74.8% vs 71.5%).
- 모바일/에지 타겟에서 OFA는 모바일 설정에서 595M MACs로 80.0% top-1 정확도에 도달하고 Pixel1에서 143 ms의 잠재 지연으로 80.1%를 달성하며, 유사한 MobileNetV3 및 EfficientNet 변종보다 정확도와 지연 면에서 우수합니다.
- OFA 접근법은 전통적인 NAS에 비해 학습 및 설계 비용을 차례로 줄여 배포 시나리오 간 일정한 탐색 비용을 가능하게 합니다.
- 전문화된 OFA 모델은 CPU, GPU, mGPU, FPGA에서 대략적 같은 지연에서 비전문화 네트워크보다 일관되게 더 나은 성능을 보입니다.
- 다양한 하드웨어(CPU, GPU, FPGA)에서의 배치 결과는 수치 연산 강도 및 GOPS/s가 개선되었으며, OFA는 Xilinx FPGA에서의 로프라인 성능도 우수합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.