Skip to main content
QUICK REVIEW

[논문 리뷰] AMC: AutoML for Model Compression and Acceleration on Mobile Devices

Yihui He, Ji Lin|arXiv (Cornell University)|2018. 02. 10.
Machine Learning and Data Classification참고 문헌 92인용 수 366
한 줄 요약

AMC는 강화학습(DDPG)을 이용해 계층별 압축 정책을 자동으로 학습하고, 수작업으로 설계된 방법보다 더 나은 정확도/지연 시간 균형을 달성하며 모바일과 GPU 하드웨어에서 의미 있는 속도 향상을 제공합니다.

ABSTRACT

Model compression is a critical technique to efficiently deploy neural network models on mobile devices which have limited computation resources and tight power budgets. Conventional model compression techniques rely on hand-crafted heuristics and rule-based policies that require domain experts to explore the large design space trading off among model size, speed, and accuracy, which is usually sub-optimal and time-consuming. In this paper, we propose AutoML for Model Compression (AMC) which leverage reinforcement learning to provide the model compression policy. This learning-based compression policy outperforms conventional rule-based compression policy by having higher compression ratio, better preserving the accuracy and freeing human labor. Under 4x FLOPs reduction, we achieved 2.7% better accuracy than the handcrafted model compression policy for VGG-16 on ImageNet. We applied this automated, push-the-button compression pipeline to MobileNet and achieved 1.81x speedup of measured inference latency on an Android phone and 1.43x speedup on the Titan XP GPU, with only 0.1% loss of ImageNet Top-1 accuracy.

연구 동기 및 목표

  • 지연 및 자원 제약 하에서 모바일 기기에서 신경망의 효율적 배치를 촉진한다.
  • 하드웨어 예산 내에서 정확도를 극대화하기 위해 계층별 압축 정책 탐색을 자동화한다.
  • VGG, ResNet, MobileNet 등 네트워크와 분류에서 탐지까지의 작업에 걸친 접근 방식의 일반성을 입증한다.
  • 리소스 제약형 및 정확도-guaranteed 압축을 위한 두 가지 보상 체계를 제시한다.

제안 방법

  • 모델 압축은 계층별 연속 행동 제어 문제로 설정된다.
  • DDPG 에이전트는 11-피처 계층 임베딩을 처리하여 (0,1] 범위의 정확한 가지치기 비율 a_t를 출력한다.
  • 최종 정확도를 신속히 추정하기 위해 미세 조정 없이 계층별로 압축이 수행된다.
  • 보상은 정확도와 하드웨어 지표(FLOPs 혹은 파라미터)를 결합하며 두 가지 프로토콜이 정의된다: 자원 제약형과 정확도 보장형.
  • 평가에는 사전 학습된 네트워크를 사용하고, 정책 탐색 후 최상의 성능을 위해 최종 미세 조정을 수행한다.

실험 결과

연구 질문

  • RQ1강화학습 에이전트가 수작업으로 설계된 휴리스틱보다 우수한 계층별 압축 정책을 발견할 수 있는가?
  • RQ2연속적 계층별 희소성 동작이 이산적 선택보다 더 미세하고 효과적인 모델 축소를 가능하게 하는가?
  • RQ3AMC가 아키텍처와 작업 간(분류에서 탐지까지) 압축 정책을 일반화할 수 있는가?
  • RQ4자원 제약형 및 정확도 보장형 보상 체계가 성능 저하 없이 목표 예산을 안정적으로 달성하는가?
  • RQ5모바일 기기와 GPU에서의 실제 속도 향상 및 정확도 영향은 무엇인가?

주요 결과

  • 4× 이하의 FLOPs 감소에서도, AMC는 ImageNet에서 VGG-16에 대해 수작업 정책보다 상위 1 정확도(Top-1)에서 2.7% 향상했다.
  • AMC는 MobileNet을 1.81× 빠른 Android 추론과 1.53× 빠른 Titan XP GPU 추론으로 압축하되 ImageNet Top-1 손실은 0.1%에 불과하다.
  • ResNet-50의 경우, AMC는 전문가 조정 3.4× 압축을 5×로 증가시키되 ImageNet에서 정확도 손실 없이 유지한다.
  • AMC는 Google Pixel 1에서 1.95×의 속도 향상을 달성하고 모바일/GPU에서 최대 1.53–1.95×의 이득을 얻으며 유지된 정확도로 수작업 방법보다 우수하다.
  • AMC는 객체 탐지로 일반화된다: VGG-16이 적용된 Faster R-CNN에서 4× 가지치기는 동일한 압축 하에서 수작업 가지치기보다 동등하거나 더 나은 mAP를 보인다.
  • CIFAR-10에서 AMC는 Plain-20 및 ResNet-56에 대해 FLOPs 및 파라미터 예산 전반에서 수작업 정책을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.