QUICK REVIEW

[논문 리뷰] Scalable Task-Oriented Parallelism for Structure Based Incomplete LU Factorization

X. Dong, Gene Cooperman|arXiv (Cornell University)|2008. 03. 01.

Matrix Theory and Algorithms참고 문헌 18인용 수 1

한 줄 요약

이 논문은 희소 비대칭 선형 시스템을 위한 첫 번째 비트 호환성, 확장 가능성, 안정성 있는 병렬 ILU(k) 조건자인 TPILU(k)를 소개한다. 이는 다수의 코어를 통해 효율적인 작업 중심 병렬 처리를 가능하게 하며, 16코어 시스템에서 최대 9배의 성능 향상을, 80노드 클러스터에서 최대 50배의 성능 향상을 달성한다. 이는 순차적 ILU(k)의 수치 안정성을 유지하면서 이루어진다.

ABSTRACT

ILU(k) is a commonly used preconditioner for iterative linear solvers for sparse, non-symmetric systems. It is often preferred for the sake of its stability. We present TPILU(k), the first efficiently parallelized ILU(k) preconditioner that maintains this important stability property. Even better, TPILU(k) preconditioning produces an answer that is bit-compatible with the sequential ILU(k) preconditioning. In terms of performance, the TPILU(k) preconditioning is shown to run faster whenever more cores are made available to it --- while continuing to be as stable as sequential ILU(k). This is in contrast to some competing methods that may become unstable if the degree of thread parallelism is raised too far. Where Block Jacobi ILU(k) fails in an application, it can be replaced by TPILU(k) in order to maintain good performance, while also achieving full stability. As a further optimization, TPILU(k) offers an optional level-based incomplete inverse method as a fast approximation for the original ILU(k) preconditioned matrix. Although this enhancement is not bit-compatible with classical ILU(k), it is bit-compatible with the output from the single-threaded version of the same algorithm. In experiments on a 16-core computer, the enhanced TPILU(k)-based iterative linear solver performed up to 9 times faster. As we approach an era of many-core computing, the ability to efficiently take advantage of many cores will become ever more important. TPILU(k) also demonstrates good performance on cluster or Grid. For example, the new algorithm achieves 50 times speedup with 80 nodes for general sparse matrices of dimension 160,000 that are diagonally dominant.

연구 동기 및 목표

희소 비대칭 선형 시스템을 위한 확장 가능하고 안정적이며 비트 호환성 있는 병렬 ILU(k) 조건자가 부족한 문제를 해결하기 위해.
수치 안정성을 희생시키지 않고 ILU(k) 분해에서 효율적인 작업 중심 병렬 처리를 가능하게 하기 위해.
스레드 수를 늘릴수록 불안정성이 발생하는 블록 자코비 ILU(k)와 같은 고도로 병렬화된 대안의 문제를 해결하기 위해.
고도의 병렬 처리에서 비트 호환성이나 안정성을 잃는 기존 병렬 ILU(k) 방법에 대한 고성능 대안을 제공하기 위해.
정확한 비트 호환 실행과 성능 중심 응용 프로그램을 위한 빠른 근사 수준 기반 변형을 모두 지원하기 위해.

제안 방법

다수의 코어에 걸쳐 ILU(k) 분해를 독립적이고 세분화된 작업으로 나누는 작업 중심 병렬 처리 모델을 설계하기 위해.
병렬 스레드 간의 데이터 일관성과 수치 안정성을 유지하기 위해 종속성 인식 스케줄링 전략을 사용하기 위해.
순차적 ILU(k) 알고리즘과 동일한 결과를 보장하기 위해 비트 호환 실행 모델을 구현하기 위해.
빠른 근사로 사용할 수 있는 선택적 수준 기반 비완전 역행렬 방법을 도입하여 단일 스레드 버전과 비트 호환성을 확보하기 위해.
작업 기반 런타임 시스템을 활용하여 동적 로드 밸런싱을 관리하고 동기화 오버헤드를 최소화하기 위해.
분산 메모리 환경을 지원하기 위해 프레임워크를 확장하여 클러스터 및 그리드 시스템에 배포 가능하게 하기 위해.

실험 결과

연구 질문

RQ1순차적 버전과 비트 호환성을 유지하면서도 다수의 코어에서 효율적으로 확장 가능한 병렬 ILU(k) 조건자를 설계할 수 있는가?
RQ2고도의 스레드 수에서 작업 중심 병렬 처리가 블록 기반 또는 도메인 기반 접근 방식보다 수치 안정성을 더 잘 유지하는가?
RQ3제안된 방법이 안정성을 희생시키지 않고 공유 메모리 시스템과 분산 클러스터 양쪽 모두에서 상당한 성능 향상을 달성할 수 있는가?
RQ4선택적 수준 기반 비완전 역행렬 변형의 성능는 정확한 TPILU(k) 방법과 비교해 속도와 정확도 측면에서 어떻게 다른가?
RQ5TPILU(k)가 실제 응용 프로그램에서 불안정한 대안인 블록 자코비 ILU(k)를 얼마나 널리 대체할 수 있는가?

주요 결과

TPILU(k)는 순차적 ILU(k) 대비 16코어 시스템에서 최대 9배 빠른 성능을 달성하며, 완전한 비트 호환성을 유지한다.
알고리즘이 코어 수 증가에 따라 효과적으로 스케일링되며, 고도의 스레드 병렬 처리 수준에서도 안정성을 유지한다.
80노드 클러스터에서 대각선 우세 희소 행렬(크기 160,000)에 대해 최대 50배의 성능 향상을 제공한다.
선택적 수준 기반 비완전 역행렬 방법은 단일 스레드 버전과 비트 호환되는 빠른 근사로 제공된다.
블록 자코비 ILU(k)가 불안정성으로 인해 실패하는 상황에서 TPILU(k)는 안정성과 성능을 유지하여 실사용 워크로드에서 신뢰성 있게 활용할 수 있다.
이 방법은 강력한 이식성과 함께 공유 메모리 및 분산 메모리 아키텍처 양쪽 모두에서 고성능을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.