QUICK REVIEW

[논문 리뷰] StreamShield: A Production-Proven Resiliency Solution for Apache Flink at ByteDance

Yong Fang, Yuxing Han|arXiv (Cornell University)|2026. 02. 03.

Software System Performance and Reliability인용 수 0

한 줄 요약

StreamShield은 ByteDance의 Apache Flink 클러스터에 대한 생산 검증된 회복력 솔루션으로, 엔진-, 클러스터-, 릴리스- 수준의 기술을 도입하여 생산 규모의 평가에서 결함 허용성, 안정성 및 배포 효율성을 개선합니다.

ABSTRACT

Distributed Stream Processing Systems (DSPSs) form the backbone of real-time processing and analytics at ByteDance, where Apache Flink powers one of the largest production clusters worldwide. Ensuring resiliency, the ability to withstand and rapidly recover from failures, together with operational stability, which provides consistent and predictable performance under normal conditions, is essential for meeting strict Service Level Objectives (SLOs). However, achieving resiliency and stability in large-scale production environments remains challenging due to the cluster scale, business diversity, and significant operational overhead. In this work, we present StreamShield, a production-proven resiliency solution deployed in ByteDance's Flink clusters. Designed along complementary perspectives of the engine and cluster, StreamShield introduces key techniques to enhance resiliency, covering runtime optimization, fine-grained fault-tolerance, hybrid replication strategy, and high availability under external systems. Furthermore, StreamShield proposes a robust testing and deployment pipeline that ensures reliability and robustness in production releases. Extensive evaluations on a production cluster demonstrate the efficiency and effectiveness of techniques proposed by StreamShield.

연구 동기 및 목표

ByteDance의 대규모 Flink 배포에서 회복력과 운영 안정성 문제를 해결한다.
복구 속도, 부하 분산 및 배포 효율성을 개선하기 위해 엔진-, 클러스터- 및 릴리스- 수준 기술을 개발한다.
이기종 워크로드에 걸쳐 SLO 준수를 유지하면서 복구 오버헤드를 최소화한다.
배포 전에 회복력을 검증하기 위한 생산 시험 파이프라인을 제공한다.

제안 방법

엔진 수준 회복력: 적응형 런타임 최적화 및 세밀한 장애 허용 메커니즘.
그룹 및 부하 인식 데이터 재분배 전략(적응형 셔플: 백로그 기반 셔플 및 Group-Rescale).
핫 키를 확산하고 데이터 불균형을 줄이기 위한 WeakHash 파티셔닝.
DS2에서 영감을 받은 자동 스케일링으로 안정성과 안전성을 위한 향상.
세밀한 장애 허용: 영역 체크포인트, 단일 태스크 복구, State LazyLoad.
작업 시작 가속: 파싱/상태 공유 최적화, 태스크 배치 배치, 느린 시작 처리 및 HotUpdate.
고가용성 구축: 하이브리드 복제(활성/패시브) 및 의존성 인지 장애 허용.

Figure 1 : The Architecture of Apache Flink.

실험 결과

연구 질문

RQ1이기종 워크로드를 가진 생산 규모의 Flink 배포에서 회복력을 어떻게 향상시킬 수 있는가?
RQ2고장과 백프레셔 하에서 회복 대기시간, 데이터 완전성 및 운영 오버헤드를 개선하는 엔진-, 클러스터-, 및 릴리스 수준의 기술은 무엇인가?
RQ3일반 스트리밍 워크로드에서 정합성을 해치지 않으면서 세밀한 장애 허용 메커니즘이 복구 범위와 대기 시간을 줄일 수 있는가?
RQ4대규모 ByteDance 클러스터에서 엄격한 SLO를 충족하기 위해 배포 및 시작 오버헤드를 어떻게 줄일 수 있는가?
RQ5Flink 회복력과 가용성을 유지하는 데 있어 외부 의존성의 견고성은 어떤 역할을 하는가?

주요 결과

StreamShield는 엔지니어링된 런타임 최적화와 세밀한 복구 메커니즘을 통해 생산 규모의 회복력 향상을 입증한다.
하이브리드 복제 전략은 회복 대기시간과 오버헤드를 균형 있게 조정하는 동시에 외부 의존성에 대한 탄력성을 높인다.
지역 체크포인트, 단일 태스크 복구 및 State LazyLoad는 대규모 상태ful 작업에서 복구 범위와 가동 중지 시간을 줄인다.
백로그 기반 셔플과 Group-Rescale은 이기종 클러스터에서 부하 균형을 개선하고 백프레셔 효과를 완화한다.
자동 스케일링 향상과 HotUpdate는 시작 및 재시작 시간을 단축하여 더 촘촘한 SLO 준수를 지원한다.
카오스 테스트와 벤치마킹이 포함된 견고한 릴리스 파이프라인은 생산 배포 전 회복력을 검증한다.

Figure 3 : Original v.s. Region Checkpointing.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.