Skip to main content
QUICK REVIEW

[논문 리뷰] Latency-Aware Differentiable Neural Architecture Search

Yuhui Xu, Lingxi Xie|arXiv (Cornell University)|2020. 01. 17.
Advanced Neural Network Applications참고 문헌 39인용 수 26
한 줄 요약

이 논문은 DARTS 프레임워크에 학습 가능한 지연 시간 예측 모듈(LPM)을 통합하여 정확도와 추론 지연 시간을 동시에 최적화하는 지연 시간 인식 가능한 미분 가능 신경망 아키텍처 탐색(LA-DARTS)을 제안한다. 10만 개의 샘플링된 아키텍처에 대해 다층 회귀 모델을 훈련시켜 LPM이 상대 오차 10% 미만으로 지연 시간을 예측할 수 있게 되었으며, 이로 인해 CIFAR-10 및 ImageNet에서 GPU와 CPU 플랫폼 모두에서 정확도를 유지하면서 지연 시간을 20% 감소시킬 수 있었다.

ABSTRACT

Differentiable neural architecture search methods became popular in recent years, mainly due to their low search costs and flexibility in designing the search space. However, these methods suffer the difficulty in optimizing network, so that the searched network is often unfriendly to hardware. This paper deals with this problem by adding a differentiable latency loss term into optimization, so that the search process can tradeoff between accuracy and latency with a balancing coefficient. The core of latency prediction is to encode each network architecture and feed it into a multi-layer regressor, with the training data which can be easily collected from randomly sampling a number of architectures and evaluating them on the hardware. We evaluate our approach on NVIDIA Tesla-P100 GPUs. With 100K sampled architectures (requiring a few hours), the latency prediction module arrives at a relative error of lower than 10%. Equipped with this module, the search method can reduce the latency by 20% meanwhile preserving the accuracy. Our approach also enjoys the ability of being transplanted to a wide range of hardware platforms with very few efforts, or being used to optimizing other non-differentiable factors such as power consumption.

연구 동기 및 목표

  • 미분 가능 NAS 방법이 추론 시 빠르지 않은 하드웨어 비효율적 모델을 생성하는 데서 비롯되는 한계를 해결하기 위해.
  • DARTS와 같은 복잡한 검색 공간에서 정확도와 지연 시간을 끝에서 끝까지 미분 가능한 최적화를 가능하게 하기 위해.
  • 최소한의 재훈련으로 다양한 장치 간에 쉽게 이식 가능한 하드웨어 적응형 지연 시간 예측 모듈(LPM)을 개발하기 위해.
  • 표준 벤치마크에서 정확도를 희생시키지 않고도 지연 시간을 크게 줄일 수 있음을 입증하기 위해.

제안 방법

  • 지정된 아키텍처의 추론 지연 시간을 예측하기 위해 다층 신경망으로 구성된 미분 가능한 지연 시간 예측 모듈(LPM)을 학습한다.
  • LPM은 목표 하드웨어(예: NVIDIA Tesla-P100)에서 측정된 정답 지연 시간을 포함한 DARTS 검색 공간에서 무작위로 샘플링한 10만 개의 아키텍처 데이터셋을 기반으로 훈련된다.
  • 아키텍처 표현은 고정 길이의 아키텍처 파라미터 벡터로 인코딩되며, 이는 LPM의 입력으로 사용된다.
  • LPM은 균형 계수 λ를 통해 DARTS 손실 함수에 통합되어 정확도와 지연 시간의 공동 최적화를 가능하게 한다.
  • 검색 과정은 기울기 기반 업데이트를 사용하는 미분 가능한 아키텍처 탐색 프레임워크를 사용하며, 손실 함수에는 정확도와 예측된 지연 시간 항이 모두 포함된다.
  • LPM을 CPU 지연 시간 데이터로 재훈련하여 LPM을 CPU로 이식함으로써 장치별 아키텍처 탐색이 가능해진다.

실험 결과

연구 질문

  • RQ1복잡하고 체인 형태가 아닌 검색 공간에서, 미분 가능한 지연 시간 예측 모듈이 추론 지연 시간을 효과적으로 예측할 수 있는가?
  • RQ2미분 가능한 손실을 통한 정확도와 지연 시간의 공동 최적화가 정확도를 저하시키지 않으면서 하드웨어 효율성을 향상시킬 수 있는가?
  • RQ3LPM은 GPU 및 CPU와 같은 다양한 하드웨어 플랫폼 간에 얼마나 이식 가능한가?
  • RQ4표준 벤치마크에서 이 방법이 정확도를 유지하면서 지연 시간을 얼마나 줄일 수 있는가?

주요 결과

  • LPM은 GPU와 CPU 모두에서 상대 오차가 5% 미만이며, CPU 기준 절대 오차는 8.27ms, 상대 오차는 5.32%이다.
  • CIFAR-10에서 LA-DARTS는 원본 DARTS 대비 지연 시간을 19% 감소시켰으며, 유사한 정확도(2.57% 테스트 오차)를 유지했다.
  • ImageNet에서 LA-DARTS는 25.1%의 Top-1 오차를 기록했고, CPU 기준 기준선 대비 30% 낮은 지연 시간(114.1ms 대비 164.1ms)을 기록했다.
  • GPU에서 발견된 아키텍처는 CPU에서 최적화되지 않으며, GPU와 CPU 간 지연 시간 순위 일치율은 뿐만 아니라 69%에 불과하여 하드웨어별 탐색의 필요성을 드러냈다.
  • LA-PC-DARTS-B는 ImageNet에서 CPU 지연 시간을 30% 감소시켰고 정확도에 변화가 없었으며, 강력한 하드웨어 인식 최적화 능력을 입증했다.
  • GPU에서 예측된 지연 시간과 실제 지연 시간 간의 Kendall-τ 상관계수는 0.83이며, CPU에서는 0.75로, 아키텍처 탐색에 있어 높은 예측 신뢰성을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.