QUICK REVIEW

[논문 리뷰] Occupy the Cloud: Distributed Computing for the 99%

Eric Jonas, Qifan Pu|arXiv (Cornell University)|2017. 02. 13.

Cloud Computing and Resource Management참고 문헌 29인용 수 57

한 줄 요약

논문은 배포 컴퓨팅을 위한 서버리스, 무상태 함수 모델(PyWren)을 제시하여 탄력성 및 배포를 간소화하고, 원격 저장소를 상태로 사용해 MapReduce와 BSP 같은 다양한 패러다임을 구현할 수 있음을 보여주며 성능 벤치마크를 수행하고 시스템 도전과 향후 방향을 논의한다.

ABSTRACT

Distributed computing remains inaccessible to a large number of users, in spite of many open source platforms and extensive commercial offerings. While distributed computation frameworks have moved beyond a simple map-reduce model, many users are still left to struggle with complex cluster management and configuration tools, even for running simple embarrassingly parallel jobs. We argue that stateless functions represent a viable platform for these users, eliminating cluster management overhead, fulfilling the promise of elasticity. Furthermore, using our prototype implementation, PyWren, we show that this model is general enough to implement a number of distributed computing models, such as BSP, efficiently. Extrapolating from recent trends in network bandwidth and the advent of disaggregated storage, we suggest that stateless functions are a natural fit for data processing in future computing environments.

연구 동기 및 목표

클러스터 관리 오버헤드를 제거하여 클라우드 컴퓨팅을 폭넓은 사용자층이 접근할 수 있도록 동기를 부여한다.
데이터 처리의 핵심 추상화로 무상태 함수와 원격 저장소를 사용하는 서버리스 아키텍처를 제안한다.
PyWren을 통해 MapReduce, BSP, 파라미터 서버 등 다양한 분산 모델이 최소한의 상태로 효율적으로 구현될 수 있음을 시연한다.
입출력에 순수하게 원격 저장소를 사용하는 성능 트레이드오프를 평가하고 병목 현상과 향후 과제를 식별한다.

제안 방법

무상태 함수와 글로벌 스케줄러를 갖는 서버리스 실행 모델을 도입한다.
사용자 파이썬 함수를 S3를 통해 AWS Lambda에 직렬화하고 배포하도록 PyWren을 개발하여 map 프리미티브를 가능하게 한다.
원격 객체 저장소(S3)와 코어당 처리량을 활용한 IO 및 컴퓨트 벤치마크를 통해 수천 개의 함수에 걸친 확장성을 보여준다.
BSP 스타일 및 MapReduce 유사 워크로드를 시연하고 이를 전용 클러스터의 Spark와 비교한다.
무상태 함수 위에 고수준 추상화(Map+Reduce, BSP, 파라미터 서버)를 구축하여 일반성을 논의한다.

실험 결과

연구 질문

RQ1무상태 함수와 원격 저장소가 자명하게 병렬이 가능한 작업과 중간 정도의 결합을 가진 워크로드에 충분한 성능을 제공할 수 있는가?
RQ2원격 저장소를 전용 상태 매체로 사용할 때의 성능 특성(계산 및 I/O)은 무엇인가?
RQ3일반적인 분산 컴퓨팅 추상화(MapReduce, BSP, 파라미터 서버)가 무상태 함수 플랫폼에서 어느 정도까지 구현될 수 있는가?
RQ4실용적인 시스템 병목 현상(런치 오버헤드, 저장소 처리량, 스케줄링)은 무엇이며 어떻게 완화될 수 있는가?
RQ5대규모 분석에서 서버리스 방식의 비용과 탄력성은 기존 클러스터와 어떻게 비교되는가?

주요 결과

무상태 함수 실행은 원격 저장소를 활용하여 S3에 대해 코당 30-40 MB/s의 쓰기/읽기를 달성하며, 2800개의 동시 함수에서 60-80 GB/s까지 확장된다.
1TB 정렬 벤치마크는 분산 Lambda 워커와 Redis 샤딩을 사용하여 PyWren으로 완료할 수 있으며, 확장 가능한 셔플-활성 성능을 보여준다.
83M 아이템 단어 수세기 워크로드는 전용 서버에서 PySpark보다 약 17% 느리지만 대규모 작업에 대해 경쟁력 있는 성능을 보여준다.
각 Lambda 내 행렬 곱셈은 코어당 18 GFLOPS를 산출하며 2800 워커로 40 TFLOPS를 넘는다.
셔플 중심 워크로드의 실현 가능성을 보여주지만 데이터 이동이 증가함에 따라 저장소 처리량이 주요 병목 현상으로 작용한다.
파라미터 서버 워크로드(예: Hogwild!)는 조정을 위한 중앙 키-값 저장소를 사용하여 무상태 함수로 구현될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.