QUICK REVIEW

[논문 리뷰] Fully Read/Write Fence-Free Work-Stealing with Multiplicity

Armando Castañeda, Miguel Piña|arXiv (Cornell University)|2020. 08. 10.

Scheduling and Optimization Algorithms인용 수 1

한 줄 요약

이 논문은 다중성(multiplicity)을 허용하는 첫 번째 완전히 읽기/쓰기 장벽(fence)이 없는 워크스틸링 알고리즘을 제안한다. 다중성은 작업이 여러 번 추출될 수 있도록 허용하지만, 각 프로세스가 주어진 작업을 최대 한 번만 취하는 것을 보장한다. 제안된 알고리즘은 모든 연산에서 읽기 이후 쓰기 동기화 패tern과 읽기/쓰기 장벽을 제거하여 대기 자유(wait-freedom) 및 로그 또는 상수 단계 복잡도를 달성하며, 실험 결과 Cilk, Chase-Lev 및 아이디포텐트 워크스틸링보다 뛰어난 성능을 보였다.

ABSTRACT

Work-stealing is a popular technique to implement dynamic load balancing in a distributed manner. In this approach, each process owns a set of tasks that have to be executed. The owner of the set can put tasks in it and can take tasks from it to execute them. When a process runs out of tasks, instead of being idle, it becomes a thief to steal tasks from a victim. Thus, a work-stealing algorithm provides three high-level operations: Put and Take, which can be invoked only by the owner, and Steal, which can be invoked by a thief. One of the main targets when designing work-stealing algorithms is to make Put and Take as simple and efficient as possible. Unfortunately, it has been shown that any work-stealing algorithm in the standard asynchronous model must use expensive Read- After-Write synchronization patterns or atomic Read-Modify-Write instructions, which may be costly in practice. Thus, prior research has proposed idempotent work-stealing, a relaxation for which there are algorithms with Put and Take devoid of Read-Modify-Write atomic instructions and Read-After-Write synchronization patterns; however, Put uses fences among Write instructions, and Steal uses Compare&Swap and fences among Read instructions. In the TSO model, in which Write (resp. Read) instructions cannot be reordered, there have been proposed fully fence-free work-stealing algorithms whose Put and Take have similar properties but Steal uses Compare&Swap or a lock.

연구 동기 및 목표

기존 워크스틸링 알고리즘에서 읽기 이후 쓰기 동기화 및 원자적 읽기-수정-쓰기 명령어로 인한 성능 저하 문제를 해결하기 위해.
작업을 여러 번 추출할 수 있지만, 각 프로세스가 주어진 작업을 최대 한 번만 취하도록 보장하는 완화된 워크스틸링 모델을 설계하기 위해.
표준 이방향 공유 메모리 모델 하에서 완전히 읽기/쓰기 장벽 없이 대기 자유 워크스틸링 알고리즘을 달성하기 위해.
간단한 동기화 원자성으로도 스팸닝 트리 계산과 같은 비트리비얼 조율이 가능함을 보여주기 위해.
Cilk, Chase-Lev, 아이디포텐트 워크스틸링과 같은 기존 솔루션과 비교하여 제안된 알고리즘의 성능을 평가하기 위해.

제안 방법

다중성과 약한 다중성(weak multiplicity)이라는 두 가지 완화를 도입하여, 각 작업에 대해 여러 개의 Take/Steal 연산을 허용하지만, 각 프로세스가 한 번의 작업 추출만 허용하도록 제한한다.
다중성과 함께 워크스틸링 문제를 MaxRegister 및 RangeMaxRegister 데이터 구조로 환원하며, 이는 MaxRegister의 완화된 형태이다.
작업 큐의 머리(head)를 관리하기 위해 MaxRegister를 사용하는 대기 자유, 장벽 없는 알고리즘을 설계한다.
로그 시간 복잡도를 가지는 다중성에 대한 두 번째 알고리즘을 RangeMaxRegister 추상화를 사용하여 구현한다.
모든 Put, Take, Steal 연산이 장벽 없이 원자적 읽기-수정-쓰기 연산 없이 읽기/쓰기 명령어만을 사용하도록 보장한다.
TSO 유사 환경에서의 재정렬 문제를 방지하기 위해 유한 버퍼 모델을 사용하여 장벽 없는 실행을 가능하게 한다.

실험 결과

연구 질문

RQ1모든 연산, 특히 Steal 연산에서도 읽기 이후 쓰기 패턴과 장벽 없이 워크스틸링을 완전히 장벽 없이 만들 수 있는가?
RQ2다중성 허용의 완화된 의미 체계 하에서 대기 자유 워크스틸링 알고리즘을 설계할 수 있는가?
RQ3MaxRegister 및 RangeMaxRegister 추상화를 사용하여 다중성과 함께 효율적이고 장벽 없는 워크스틸링을 구현할 수 있는가?
RQ4제안된 알고리즘이 실제로 Cilk, Chase-Lev, 아이디포텐트 워크스틸링과 같은 기존 알고리즘보다 성능이 뛰어나게 되는가?
RQ5다중성의 완화가 복잡한 동기화 없이도 정확성과 성능을 유지하면서 더 단순한 동기화를 가능하게 할 수 있는가?

주요 결과

제안된 WS-WMULT 알고리즘은 Intel Core i7 및 Xeon 클러스터에서 Cilk, Chase-Lev, 아이디포텐트 워크스틸링보다 뛰어난 성능을 보였다.
방향성 3D 토러스의 경우, WS-WMULT는 Chase-Lev 대비 최대 36.61%의 스피드업, 아이디포텐트 FIFO 대비 8.65%, 아이디포텐트 LIFO 대비 19.6%의 스피드업을 기록했다.
비방향성 3D 토러스의 경우, WS-WMULT는 Chase-Lev 대비 최대 12.25%의 스피드업, 아이디포텐트 FIFO 대비 5.95%, 아이디포텐트 FIFO 대비 0.78%의 스피드업을 기록했다.
Steal에서 Swap을 사용하는 유한 버전인 B-WS-WMULT는 WS-WMULT보다 성능이 낮았지만, 다른 알고리즘들과 경쟁 가능했다.
약한 다중성에 대한 알고리즘은 상수 단계 복잡도를 가지며 완전히 장벽 없었으며, 문헌상 최초의 해답이었다.
이론적 분석을 통해 다중성과 함께 워크스틸링이 공감수준 계층의 최하위 수준에 위치함을 확인하였으며, 이는 최소한의 동기화 능력으로도 충분함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.