Skip to main content
QUICK REVIEW

[논문 리뷰] Opportunistic Scheduling for Optimal Spot Instance Savings in the Cloud

Neelkamal Bhuyan, Randeep Bhatia|arXiv (Cornell University)|2026. 01. 18.
Advanced Queuing Theory Analysis인용 수 0
한 줄 요약

이 논문은 지연 제약 하에서 스팟 및 온디맨드 클라우드 인스턴스에서 지연 민감한 작업의 평균 비용을 최소화하기 위한 대기이론적 프레임워크를 개발하고, 촘촘한 지연 체계와 완화된 지연 체계에서의 최적 정책을 도출하며, 학습을 보강한 적응적 수락 정책을 제시합니다.

ABSTRACT

We study the problem of scheduling delay-sensitive jobs over spot and on-demand cloud instances to minimize average cost while meeting an average delay constraint. Jobs arrive as a general stochastic process, and incur different costs based on the instance type. This work provides the first analytical treatment of this problem using tools from queuing theory, stochastic processes, and optimization. We derive cost expressions for general policies, prove queue length one is optimal for low target delays, and characterize the optimal wait-time distribution. For high target delays, we identify a knapsack structure and design a scheduling policy that exploits it. An adaptive algorithm is proposed to fully utilize the allowed delay, and empirical results confirm its near-optimality.

연구 동기 및 목표

  • 스팟 및 온디맨드 클라우드 인스턴스에서 지연 제약이 있는 지연 민감한 작업의 스케줄링을 G/G/1 대기 문제로 formalize한다.
  • 두 가지 지연 체계(촘촘한 δ가 낮은 지연과 완화된 δ가 높은 지연)에서의 최적 정책을 특징짓는다.
  • 닫힌 형태의 비용 식과 최적 대기 시간 분포를 도출하고, 완화된 체계에서의 Knapsack 구조를 식별한다.
  • Spot 인스턴스로 스케줄링하면서 최적의 부분적 수락 비를 학습하는 적응적 수락 제어 정책을 제안한다.
  • 다양한 스팟 가용성 하에서 거의 최적의 성능을 보이는 실증적 결과로 접근 방식을 검증한다.

제안 방법

  • 시스템을 spot과 온디맨드 서비스 및 각 도착 작업에 대해 가입 확률 q_n과 최대 대기 시간 X_n를 선택하는 의사결정 정책을 갖는 G/G/1 큐로 모델링한다.
  • 일반 정책에 대한 비용의 식 E[C] = k - (k-1) * (E[A]/E[S_μ]) * (1 - π_0) 를 도출한다.
  • δ가 촘촘한 체제에서 대기열 길이가 하나가 최적임을 증명하고 (δ ≤ P(A ≤ S_μ)/λ) 이에 대응하는 E[C] = k - (k-1) μ δ 를 도출한다.
  • 지연 제약 하에서 P(X > S_μ)를 최대화하는 선형 계획법으로 최적의 최대 대기 시간 분포를 특징지운다(정리 3).
  • 완화된 지연 체계에서 Knapsack 구조를 식별하고 거의 최적의 스케줄링을 위한 3단계 그리디 정책(정리 4)을 개발한다.
  • 스팟 인스턴스로 스케줄링하는 동안 최적의 부분적 수락 r*을 학습하는 알고리즘 1(Adaptive Admission Control Policy)을 도입한다.
  • 다양한 스팟 가용성 패턴에서 최적 행위를 경험적으로 수렴하는 학습 보강 정책을 제시한다.

실험 결과

연구 질문

  • RQ1스팟 및 온디맨드 인스턴스에서 지연 제약 δ를 넘지 않으면서 작업당 평균 비용을 어떻게 최소화할 수 있는가?
  • RQ2촘촘한 지연 체제에서 어떤 큐 길이 및 대기 시간 정책이 최적인가?
  • RQ3단일 슬롯(큐 길이 ≤ 1) 정책의 최적 대기 시간 분포는 지연 제약하에서 무엇인가?
  • RQ4완화된 지연 체제에서 근사 최적성을 달성하기 위해 Knapsack과 같은 구조를 어떻게 활용할 수 있는가?
  • RQ5적응적 수락 제어 정책이 다양한 스팟 가용성 패턴에서 실제로 최적 정책에 근접하도록 학습하고 수렴할 수 있는가?

주요 결과

  • 일반 G/G/1 설정에서의 작업당 비용은 E[C] = k - (k-1) * (E[A]/E[S_μ]) * (1 - π_0)이다.
  • 촘촘한 지연 체제에서 최적 큐 길이는 하나이며, E[C] = k - (k-1) μ δ를 갖는 적절한 X 분포를 만족한다.
  • 단일 슬롯 정책의 최적 최대 대기 시간 분포는 지연 제약 하에서 P(X > S_μ)를 최대화하도록 선형 계획법을 풂으로 얻는다.
  • 완화된 지연 체제에서 Knapsack 구조가 나타나 거의 최적의 3단계 그리디 정책을 가능하게 한다.
  • 적응적 수락 제어 정책(Algorithm 1)은 최적의 부분적 수락 r*를 학습하고 실험에서 수렴 근방의 비용을 달성한다.
  • 다양한 스팟 가용성 패턴과 도착 프로세스에 대해 적응 정책의 빠른 수렴이 실증적으로 관찰된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.