Skip to main content
QUICK REVIEW

[논문 리뷰] Fault-tolerant linear solvers via selective reliability

Patrick G. Bridges, Kurt Brian Ferreira|arXiv (Cornell University)|2012. 06. 07.
Parallel Computing and Optimization Techniques참고 문헌 33인용 수 47
한 줄 요약

이 논문은 교정 불가능한 메모리 장애가 발생하더라도 수렴을 유지할 수 있도록 선택적 신뢰성 기법을 적용한 고장내성 반복 선형 해법기인 FT-GMRES를 제안한다. 외부 반복과 조건부 행렬 갱신과 같은 핵심 데이터 및 단계에 대해서만 신뢰성을 적용함으로써, 표준 해법기에서 실패하는 조건에서도 수렴을 가능하게 하며, 고장률이 증가함에 따라 성능 저하가 최소한도로 발생한다.

ABSTRACT

Energy increasingly constrains modern computer hardware, yet protecting computations and data against errors costs energy. This holds at all scales, but especially for the largest parallel computers being built and planned today. As processor counts continue to grow, the cost of ensuring reliability consistently throughout an application will become unbearable. However, many algorithms only need reliability for certain data and phases of computation. This suggests an algorithm and system codesign approach. We show that if the system lets applications apply reliability selectively, we can develop algorithms that compute the right answer despite faults. These "fault-tolerant" iterative methods either converge eventually, at a rate that degrades gracefully with increased fault rate, or return a clear failure indication in the rare case that they cannot converge. Furthermore, they store most of their data unreliably, and spend most of their time in unreliable mode. We demonstrate this for the specific case of detected but uncorrectable memory faults, which we argue are representative of all kinds of faults. We developed a cross-layer application / operating system framework that intercepts and reports uncorrectable memory faults to the application, rather than killing the application, as current operating systems do. The application in turn can mark memory allocations as subject to such faults. Using this framework, we wrote a fault-tolerant iterative linear solver using components from the Trilinos solvers library. Our solver exploits hybrid parallelism (MPI and threads). It performs just as well as other solvers if no faults occur, and converges where other solvers do not in the presence of faults. We show convergence results for representative test problems. Near-term future work will include performance tests.

연구 동기 및 목표

  • 에너지 제약으로 인해 전체 시스템 수준의 고장내성 기능을 구현하기 어려운 초대규모 계산 환경에서의 하드웨어 신뢰성 저하 문제를 해결한다.
  • 대규모 병렬 응용 프로그램에 전반적인 신뢰성을 적용하는 것이 비현실적이므로, 핵심 알고리즘 구성 요소에만 신뢰성을 집중함으로써 이를 극복한다.
  • 응용 프로그램을 종료하지 않고도 교정 불가능한 메모리 고장을 감지하고 보고하는 하이브리드 응용 프로그램/OS 프레임워크를 개발한다.
  • 핵심 데이터 구조에만 선택적 신뢰성을 적용함으로써, 부동소수점 데이터에 고장이 발생하더라도 반복 해법기가 강건하고 수렴 가능함을 입증한다.
  • 에너지 소비를 줄이면서도 계산의 정확성과 수렴성을 유지할 수 있도록 알고리즘-시스템 공동 설계를 실현한다.

제안 방법

  • 대부분의 계산을 신뢰성 없이 수행하지만, 외부 반복과 조건부 행렬 갱신에 대해서만 신뢰성 모드를 사용하는 고장내성 GMRES 해법기(FT-GMRES)를 설계한다.
  • 운영체제 수준에서 교정 불가능한 메모리 고장을 감지하고 응용 프로그램에 보고하는 크로스 레이어 프레임워크를 구현한다.
  • 응용 프로그램 수준의 고장 보고 기능을 활용해, 고장이 감지될 경우에만 신뢰성 저장소에서 데이터를 다시 로드함으로써 오버헤드를 최소화한다.
  • 생산 수준의 Trilinos 컴포넌트(GMRES, ILUT 조건부 행렬)를 프로토타입에 통합하여 실제 환경에서의 성능과 확장성을 보장한다.
  • 대규모 분산 계산 환경을 지원하기 위해 MPI와 OpenMP 스레드를 모두 활용한 하이브리드 병렬 처리 기법을 적용한다.
  • 테스트 동안 실제 고장 조건을 시뮬레이션하기 위해 1MB당 시간당 1000건의 가짜 고장을 주입하는 방법을 사용한다.

실험 결과

연구 질문

  • RQ1교정 불가능한 메모리 고장이 발생하더라도, 핵심 구성 요소에만 선택적 신뢰성을 적용할 경우 반복 선형 해법기가 수렴을 유지할 수 있는가?
  • RQ2고장률이 증가함에 따라 고장내성 해법기의 수렴 속도는 어떻게 저하되며, 실질적으로 관리 가능한 수준인가?
  • RQ3시스템 수준의 고장 감지 프레임워크를 통해 응용 프로그램 수준의 고장내성 기능을 실현할 수 있으며, 교정 불가능한 오류 발생 시 프로세스 종료 없이 계속 실행이 가능한가?
  • RQ4전체 시스템 복제보다 알고리즘 수준의 고장내성 기법이 신뢰성에 대한 에너지 비용을 얼마나 줄일 수 있는가?
  • RQ5선택적 신뢰성 기법이 과학 계산 분야의 선형 해법기 외의 다른 반복 알고리즘으로 일반화될 수 있는가?

주요 결과

  • 표준 GMRES와 재시작된 GMRES는 동일한 고장 조건에서 수렴하지 못한 반면, FT-GMRES는 교정 불가능한 메모리 고장이 발생하더라도 해를 성공적으로 수렴시켰다.
  • FT-GMRES의 수렴 속도는 고장률 증가에 따라 점진적으로 저하되었으며, 고장 주입률이 높아져도 총 반복 횟수의 증가 폭이 미미했다.
  • 고장을 감지할 경우 조건부 행렬과 외부 반복 데이터만 새로 고치는 방식으로, 성능에 미치는 영향을 최소화하면서도 강건성을 유지했다.
  • 프로토타입은 고장 감지 메커니즘을 생산 수준의 해법기에 통합함으로써, 고장이 없는 조건에서도 성능 저하 없이 작동함을 입증했다.
  • 크로스 레이어 프레임워크는 교정 불가능한 메모리 고장을 성공적으로 감지하고 응용 프로그램에 보고하여, 프로세스 종료 없이 계속 실행 가능하게 했다.
  • 결과적으로 선택적 신뢰성 기법이 알고리즘 정확성과 수렴성을 유지하면서도 고장내성에 필요한 에너지 비용을 크게 줄일 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.