[논문 리뷰] TensorFlow-Serving: Flexible, High-Performance ML Serving
TensorFlow-Serving은 라이브러리, 표준 바이너리, 및 호스팅 서비스(TFS 2)를 갖춘 유연하고 고성능의 ML 서빙 프레임워크를 제공하며, Google 및 Google Cloud에서 효율적인 모델 수명 주기 관리, 배치 처리, 다중 모델 호스팅을 지원합니다.
We describe TensorFlow-Serving, a system to serve machine learning models inside Google which is also available in the cloud and via open-source. It is extremely flexible in terms of the types of ML platforms it supports, and ways to integrate with systems that convey new models and updated versions from training to serving. At the same time, the core code paths around model lookup and inference have been carefully optimized to avoid performance pitfalls observed in naive implementations. Google uses it in many production deployments, including a multi-tenant model hosting service called TFS^2.
연구 동기 및 목표
- 생산 환경에 적합한 ML 모델 서빙 인프라의 필요성에 동기를 부여한다.
- 여러 ML 플랫폼 및 모델 수명 주기를 지원하는 아키텍처 설계를 설명한다.
- 안전한 모델 업그레이드, canary 및 롤백, 효율적인 메모리 관리 메커니즘을 제시한다.
- 호스팅 서비스(TFS 2)와 모델 배포 및 라우팅 자동화 방법을 설명한다.
제안 방법
- C++ 라이브러리, 표준 서버 바이너리, 및 호스팅 서비스로 구성된 3계층 설계를 설명한다.
- aspired versions API를 사용한 Sources, Source Routers, Source Adapters, 및 Manager를 이용한 모델 수명 주기 관리 구현.
- 가용성- 또는 자원 보존 전이 정책 및 꼬리 지연 최적화를 갖춘 AspiredVersionsManager를 도입한다.
- 디버깅 및 품질 점검 로그를 포함한 저수준 텐서 인터페이스와 tf.Example 기반 상위 API를 포함한 여러 추론 API를 제공한다.
- 다중 큐를 지원하고 모델/버전의 동적 제공을 가능하게 하는 핵심 배치 라이브러리를 통해 인터-요청 배치를 개발한다.
- 더 쉬운 사용과 자동화된 모범 사례 강화를 위해 표준 바이너리 배포 및 호스팅 서비스(TFS 2)를 제공한다.
실험 결과
연구 질문
- RQ1기반 ML 프레임워크에 독립적인 일반적인 ML 모델 서빙 시스템을 어떻게 설계할 수 있을까?
- RQ2모델 버전을 어떻게 로드하고 전환하며 최소한의 대기 시간으로 안전하게 canary 테스트를 수행하고 롤백할 수 있을까?
- RQ3GPU/TPU 추론에서 처리량을 높이면서 꼬리 지연을 낮추기 위해 어떤 배치 및 스레딩 전략이 필요할까?
- RQ4서빙 인프라를 호스팅 서비스로 제공하고 자동 라우팅 및 자원 관리를 어떻게 구현할 수 있을까?
- RQ5새로운 버전을 서빙하기 전에 엔드 투 엔드 ML 파이프라인 품질 검사를 보장하는 메커니즘은 무엇일까?
주요 결과
- 라이브러리, 바이너리, 및 호스팅 서비스는 다중 모델 및 다중 테넌트 구성을 포함한 다양한 배포 요구를 충족한다.
- AspiredVersionsManager는 canary 및 롤백 워크플로우를 가능하게 하여 전체 롤아웃 전에 새로운 버전을 안전하게 검증한다.
- TensorFlow-Serving은 RPC/TensorFlow 계층을 측정에서 제외하면 코어당 초당 약 100,000건의 요청을 처리할 수 있다.
- Google 규모의 채택에는 수백 개의 프로젝트와 사용자당 초당 수천만 건의 추론이 포함된다.
- TFS 2는 모델 할당을 서빙 작업에 자동화하고 canary/rollback을 관리하며, 지연 급등을 완화하기 위해 Hedge(hedged) 요청을 사용하고 글로벌 상태를 Spanner에 의존한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.