QUICK REVIEW

[논문 리뷰] INFaaS: A Model-less Inference Serving System

Francisco Romero, Qian Li|arXiv (Cornell University)|2019. 05. 30.

Advanced Neural Network Applications참고 문헌 15인용 수 7

한 줄 요약

INFaaS는 기계학습 추론 워크로드의 자원 및 구성 결정을 자동화하는 모델 없는 추론 서비스입니다. 사용자가 지정한 성능 및 정확도 요구사항을 바탕으로 동적으로 최적의 모델 버전, 하드웨어, 스케일링 전략을 선택함으로써, Clipper 및 TensorFlow Serving 대비 최대 150배의 비용 절감, 1.5배 높은 처리량, 1.5배 적은 지연 시간 위반을 달성합니다.

ABSTRACT

Despite existing work in machine learning inference serving, ease-of-use and cost efficiency remain key challenges. Developers must manually match the performance, accuracy, and cost constraints of their applications to decisions about selecting the right model and model optimizations, suitable hardware architectures, and auto-scaling configurations. These interacting decisions are difficult to make for users, especially when the application load varies, applications evolve, and the available resources vary over time. Thus, users often end up making decisions that overprovision resources. This paper introduces INFaaS, a model-less inference-as-a-service system that relieves users of making these decisions. INFaaS provides a simple interface allowing users to specify their inference task, and performance and accuracy requirements. To implement this interface, INFaaS generates and leverages model-variants, versions of a model that differ in resource footprints, latencies, costs, and accuracies. Based on the characteristics of the model-variants, INFaaS automatically navigates the decision space on behalf of users to meet user-specified objectives: (a) it selects a model, hardware architecture, and any compiler optimizations, and (b) it makes scaling and resource allocation decisions. By sharing models across users and hardware resources across models, INFaaS achieves up to 150x cost savings, 1.5x higher throughput, and violates latency objectives 1.5x less frequently, compared to Clipper and TensorFlow Serving.

연구 동기 및 목표

기계학습 추론 서비스에서 모델, 하드웨어, 자동 스케일링의 수동적이고 실수를 유발하기 쉬운 설정 문제를 해결한다.
동적 워크로드에서 복잡하고 상호의존적인 결정으로 인한 자원 과다 할당을 줄인다.
사용자가 추론 작업과 원하는 성능/정확도 제약 조건만 지정하도록 한다.
모델 선택, 하드웨어, 컴파일러 최적화, 스케일링의 의사결정 공간을 자동으로 탐색한다.
다양한 사용자 간 공유 모델과 하드웨어 자원을 통해 비용 및 성능 향상을 달성한다.

제안 방법

자원 소비, 지연 시간, 비용, 정확도가 다른 다양한 모델 버전을 생성한다.
중앙 집중식 시스템을 통해 모델 버전의 특성 분석 및 하드웨어 및 최적화 설정에 매핑한다.
사용자가 지정한 목표에 기반해 최적의 모델, 하드웨어, 컴파일러 최적화 조합을 자동으로 선택한다.
워크로드 변화에 대응해 자동 스케일링 및 자원 할당 결정을 동적으로 관리한다.
사용자 간 모델 공유와 모델 간 하드웨어 자원 공유를 통해 활용도를 높이고 비용을 절감한다.
기존 추론 서빙 스택과 통합해 모델 전용 설정 없이도 단순한 인터페이스를 제공한다.

실험 결과

연구 질문

RQ1모델 선택, 하드웨어, 컴파일러 최적화, 스케일링의 의사결정 공간을 자동화해 기계학습 추론 서비스의 수동적 부담을 어떻게 줄일 수 있는가?
RQ2모델 버전을 통해 공유된 추론 서빙 환경에서 비용 효율성과 성능을 얼마나 향상시킬 수 있는가?
RQ3Clipper 및 TensorFlow Serving와 같은 기존 시스템 대비 자동 설정 선택이 지연 시간 위반과 과다 할당을 얼마나 줄일 수 있는가?
RQ4다양한 사용자와 워크로드 간 모델 및 하드웨어 자원을 공유할 경우 성능 및 비용의 상호 교환 관계는 어떠한가?
RQ5변동성이 큰 워크로드와 변화하는 사용자 요구사항 하에서 정확도와 지연 시간 보장을 어떻게 유지할 수 있는가?

주요 결과

INFaaS는 사용자 간 모델과 하드웨어 공유 덕분에 Clipper 및 TensorFlow Serving 대비 최대 150배의 비용 절감을 달성한다.
더 나은 자원 활용도와 구성으로 인해 기준 시스템 대비 처리량이 1.5배 향상된다.
사용자가 지정한 지연 시간 목표를 위반하는 빈도가 Clipper 및 TensorFlow Serving 대비 1.5배 적다.
최적의 모델 버전과 구성 선택을 자동화함으로써 과다 할당을 효과적으로 줄인다.
모델 버전 생성과 런타임 의사결정 메커니즘을 통해 사용자가 저수준 최적화 전문 지식 없이도 성능 및 비용 향상을 크게 달성할 수 있다.
변동하는 자원 및 워크로드 조건에 동적으로 대응함으로써 다양한 워크로드에서 높은 정확도와 낮은 지연 시간을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.