[논문 리뷰] Chameleon: Adaptive Code Optimization for Expedited Deep Neural Network Compilation
Chameleon은 강화학습 기반의 적응형 탐색과 지식 유도 샘플링 알고리즘을 도입하여 딥 네ural 네트워크 컴파일을 가속화한다. 실제 하드웨어에서 AutoTVM 대비 최적화 시간을 4.45배 감소시키고 추론 성능을 5.6% 향상시켜 수작업 최적화 없이도 더 빠르고 확장 가능한 코드 생성을 가능하게 한다.
Achieving faster execution with shorter compilation time can foster further diversity and innovation in neural networks. However, the current paradigm of executing neural networks either relies on hand-optimized libraries, traditional compilation heuristics, or very recently genetic algorithms and other stochastic methods. These methods suffer from frequent costly hardware measurements rendering them not only too time consuming but also suboptimal. As such, we devise a solution that can learn to quickly adapt to a previously unseen design space for code optimization, both accelerating the search and improving the output performance. This solution dubbed Chameleon leverages reinforcement learning whose solution takes fewer steps to converge, and develops an adaptive sampling algorithm that not only focuses on the costly samples (real hardware measurements) on representative points but also uses a domain-knowledge inspired logic to improve the samples itself. Experimentation with real hardware shows that Chameleon provides 4.45x speed up in optimization time over AutoTVM, while also improving inference time of the modern deep networks by 5.6%.
연구 동기 및 목표
- 비용이 많이 드는 하드웨어 측정에 의존하는 자동화된 DNN 최적화 프레임워크의 긴 컴파일 시간을 줄이기 위해.
- 대상 네트워크나 하드웨어에 대한 사전 지식 없이도 새로운 설계 공간에 적응함으로써 최적화 효율을 향상시키기 위해.
- 검색 과정에서 부적절하고 낭비적인 하드웨어 측정을 최소화하기 위해 지능적으로 구성 설정을 샘플링하기 위해.
- 도메인 지식과 클러스터링을 활용해 잠재력이 높은 구성 설정을 합성함으로써 검색 품질을 향상시키기 위해.
- 수작업 최적화 라이브러리에 의존하지 않고 다양한 DNN에 대해 더 빠르고 확장 가능하며 자동화된 코드 생성을 가능하게 하기 위해.
제안 방법
- Chameleon은 스케줄 검색 공간에서 탐색 전략을 동적으로 적응시키는 강화학습 에이전트를 사용하여 피드백에서 학습함으로써 더 빠르게 수렴하도록 한다.
- 설계 공간 내의 대표적인 점을 식별하고 필요한 하드웨어 측정 수를 줄이기 위해 클러스터링 기반의 적응형 샘플링 전략을 사용한다.
- 도메인 지식을 기반으로 한 샘플 합성 모듈이 높은 적합도를 가진 후보 구성 설정을 생성하여 검색 품질을 향상시키고 부적절한 평가를 방지한다.
- 기존 컴파일러인 TVM과 AutoTVM와 통합되어, 검색 및 측정 단계를 적응형이며 학습 기반의 대체 방법으로 대체한다.
- 예측된 적합도(부스트 트리 기반)와 핵심 구성 설정에서의 선택적 실시간 하드웨어 측정을 조합하여 비용 모델을 업데이트한다.
- 신규 네트워크 아키텍처에서 종단 간 훈련을 통해 이전에 본 적이 없는 DNN에 빠르게 적응할 수 있도록 한다.
실험 결과
연구 질문
- RQ1강화학습이 새로운, 본 적이 없는 설계 공간에 적응함으로써 DNN 컴파일 최적화에 효과적으로 적용될 수 있는가?
- RQ2최적화 과정에서 비용이 많이 드는 하드웨어 측정 수를 줄이기 위해 샘플링 전략을 어떻게 적응시킬 수 있는가?
- RQ3도메인 지식을 샘플링 과정에 통합하여 더 높은 품질의 후보 구성 설정을 생성할 수 있는가?
- RQ4적응형 탐색과 샘플링은 컴파일 시간을 얼마나 줄일 수 있으며, 최종 추론 성능을 향상시키는 데 어떤 정도 기여하는가?
- RQ5강화학습 기반 탐색과 지식 유도 샘플링의 조합이 기존의 확률적 또는 탐욕적 검색 방법보다 우월한가?
주요 결과
- Chameleon은 ResNet-18, VGG-16, AlexNet과 같은 현대적인 DNN에서 AutoTVM 대비 최적화 시간을 4.45배 단축시켰다.
- 평가된 네트워크 전반에서 평균 5.6% 향상된 추론 성능을 기록하여 더 나은 코드 품질을 입증했다.
- 적응형 샘플링 전략은 대표성 있고 잠재력이 높은 구성 설정에 집중함으로써 필요한 하드웨어 측정 수를 줄였다.
- 강화학습의 활용은 이전에 본 적이 없는 DNN 아키텍처에서도 고성능 스케줄에 더 빠르게 수렴하도록 했다.
- 도메인 지식을 기반으로 한 샘플 합성 모듈은 검색 과정의 초기 단계에서 고성능 구성 설정을 더 빨리 발견할 가능성을 높였다.
- Chameleon은 공개되어 있으며 TVM과 AutoTVM와 같은 기존 프레임워크와 호환되어 넓은 도입과 통합을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.