QUICK REVIEW

[논문 리뷰] ChamNet: Towards Efficient Network Design through Platform-Aware Model Adaptation

Xiaoliang Dai, Peizhao Zhang|arXiv (Cornell University)|2018. 12. 21.

Advanced Neural Network Applications참고 문헌 31인용 수 17

한 줄 요약

ChamNet는 신속하고 정확한 예측기와 하드웨어 특화 지연 시간 룩업 테이블을 활용하여 기존의 효율적인 빌딩 블록을 대상 지연 시간 및 에너지 제약 조건에 최적화하는 플랫폼 인식 신경망 아키텍처 적응 프레임워크를 제안한다. 가우시안 프로세스 기반 베이지안 최적화를 통해 검색 시간을 GPU 주간에서 분 단위로 단축시키며, 모바일 CPU 및 DSP에서 20ms 지연 시간에 73.8%의 Top-1 정확도를 달성하여 최신 기술 수준의 성능을 달성한다.

ABSTRACT

This paper proposes an efficient neural network (NN) architecture design methodology called Chameleon that honors given resource constraints. Instead of developing new building blocks or using computationally-intensive reinforcement learning algorithms, our approach leverages existing efficient network building blocks and focuses on exploiting hardware traits and adapting computation resources to fit target latency and/or energy constraints. We formulate platform-aware NN architecture search in an optimization framework and propose a novel algorithm to search for optimal architectures aided by efficient accuracy and resource (latency and/or energy) predictors. At the core of our algorithm lies an accuracy predictor built atop Gaussian Process with Bayesian optimization for iterative sampling. With a one-time building cost for the predictors, our algorithm produces state-of-the-art model architectures on different platforms under given constraints in just minutes. Our results show that adapting computation resources to building blocks is critical to model performance. Without the addition of any bells and whistles, our models achieve significant accuracy improvements against state-of-the-art hand-crafted and automatically designed architectures. We achieve 73.8% and 75.3% top-1 accuracy on ImageNet at 20ms latency on a mobile CPU and DSP. At reduced latency, our models achieve up to 8.5% (4.8%) and 6.6% (9.3%) absolute top-1 accuracy improvements compared to MobileNetV2 and MnasNet, respectively, on a mobile CPU (DSP), and 2.7% (4.6%) and 5.6% (2.6%) accuracy gains over ResNet-101 and ResNet-152, respectively, on an Nvidia GPU (Intel CPU).

연구 동기 및 목표

다양한 자원 제약 조건을 가진 다양한 하드웨어 플랫폼 간에 효율적인 신경망을 구현하는 데 도전하는 데 목적을 두며.
비싼 훈련 및 측정 과정을 예측 모델링으로 대체하여 신경망 아키텍처 검색의 시간과 계산 비용을 줄이는 데 목적을 두며.
지연 시간이나 에너지 소비를 증가시키지 않고 지능적인 계산 자원 배분을 통해 모델 정확도를 향상시키는 데 목적을 두며.
다양한 디바이스 간에 고밀도 모델의 확장성 있는 대규모 배포를 가능하게 하기 위해 각 플랫폼 별 검색 오버헤드를 최소화하는 데 목적을 두며.

제안 방법

정확도 및 자원(지연 시간/에너지) 예측기를 사용하여 플랫폼 인식 신경망 아키텍처 검색을 최적화 문제로 수식화한다.
최소한의 평가 비용으로 높은 정확도를 가진 아키텍처를 반복적으로 샘플링하기 위해 가우시안 프로세스 기반 베이지안 최적화 프레임워크를 활용한다.
특정 하드웨어 플랫폼에 맞게 빠르고 정확한 지연 시간 추정을 위해 연산자 지연 룩업 테이블(LUT)을 사용한다.
정확도 및 자원 예측기의 효율성과 강건성을 향상시키기 위해 비균형 쿼asi-몬테카를로 샘플링을 도입한다.
하드웨어 특성과 특징 맵 크기에 기반하여 네트워크 스테이지 간에 FLOPs를 재분배함으로써 계산 자원 분배를 적응시킨다.
한 번만 훈련된 예측기(정확도, 지연 시간, 에너지)를 구축하여 다수의 플랫폼 및 제약 조건 간의 검색 비용을 분산시키며, 총 비용을 O(m·n·k)에서 O(m+n)으로 줄인다.

실험 결과

연구 질문

RQ1강화 학습이나 새로운 빌딩 블록을 사용하지 않고도 자원 제약 조건이 있는 플랫폼에서 최신 기술 수준의 정확도를 달성할 수 있는가?
RQ2플랫폼 인식 계산 자원 재분배가 다양한 하드웨어에서 모델 정확도와 효율성에 어떤 영향을 미치는가?
RQ3예측 모델이 신경망 아키텍처 검색의 시간과 비용을 크게 줄일 수 있는가, 동시에 높은 정확도를 유지할 수 있는가?
RQ4네트워크 스테이지 간 FLOP 분배가 모바일 CPU 및 DSP에서 추론 속도와 정확도에 어떤 영향을 미치는가?
RQ5기존의 NAS 및 압축 기법과 비교했을 때 제안된 방법은 정확도, 지연 시간, 검색 효율성 측면에서 어떤가?

주요 결과

모바일 CPU에서 ChamNet는 20ms 지연 시간에 ImageNet에서 73.8%의 Top-1 정확도를 달성하여 MobileNetV2와 MnasNet보다 각각 8.5%와 6.6%의 절대 정확도 향상을 보였다.
모바일 DSP에서 ChamNet는 20ms 지연 시간에 75.3%의 Top-1 정확도를 달성하여 ResNet-152와 MnasNet보다 각각 9.3%와 4.8%의 절대 정확도 향상을 보였다.
MnasNet이 요구하는 수백 시간의 GPU 시간을 피하기 위해 한 번만 훈련된 예측기를 사용함으로써 검색 시간을 분 단위로 단축시켰다.
ChamNet는 초기 스테이지에서 후속 스테이지로 FLOPs를 재분배함으로써 CPU 활용도를 향상시켜, 유사한 지연 시간에서 MobileNetV2보다 2.1% 높은 정확도와 5% 낮은 지연 시간을 달성했다.
20ms 지연 시간 조건에서 삼성 갤럭시 S8의 스냅드래곤 835 CPU에서 MnasNet 대비 1.7% 높은 정확도와 1.75배의 속도 향상을 달성했다.
총 검색 비용을 O(m·n·k)에서 O(m+n)으로 줄여 대규모 이종 환경 배포에 매우 확장 가능하게 만들었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.