Skip to main content
QUICK REVIEW

[논문 리뷰] Performance Issues of Heterogeneous Hadoop Clusters in Cloud Computing

B. Thirumala Rao, N. V. Sridevi|arXiv (Cornell University)|2012. 07. 04.
Cloud Computing and Resource Management참고 문헌 5인용 수 49
한 줄 요약

이 논문은 클라우드 환경에서 노드 이질성으로 인해 부하 불균형과 처리량 감소가 발생하는 이질적 Hadoop 클러스터에서의 성능 저하를 조사한다. 노드 처리 능력의 차이를 고려한 지능적인 작업 스케줄링 및 자원 인지 데이터 배치 전략과 같은 최적화 전략을 제안하여 버티컬 성능 향상을 입증한다. 이는 이질적 환경에서 기본 Hadoop 설정보다 뚜렷한 성능 향상을 보인다.

ABSTRACT

Nowadays most of the cloud applications process large amount of data to provide the desired results. Data volumes to be processed by cloud applications are growing much faster than computing power. This growth demands new strategies for processing and analyzing information. Dealing with large data volumes requires two things: 1) Inexpensive, reliable storage 2) New tools for analyzing unstructured and structured data. Hadoop is a powerful open source software platform that addresses both of these problems. The current Hadoop implementation assumes that computing nodes in a cluster are homogeneous in nature. Hadoop lacks performance in heterogeneous clusters where the nodes have different computing capacity. In this paper we address the issues that affect the performance of hadoop in heterogeneous clusters and also provided some guidelines on how to overcome these bottlenecks

연구 동기 및 목표

  • 클라우드 환경에 배포된 Hadoop 클러스터에서 노드 이질성으로 인해 발생하는 성능 문제를 규명하는 것.
  • 노드 간 계산 능력의 차이가 부하 불균형과 시스템 처리량 감소로 이어지는 방식을 분석하는 것.
  • 이질적 클라우드 클러스터에서 Hadoop 워크로드를 최적화하기 위한 실용적인 지침을 제안하는 것.
  • 자원 인지 스케줄링 및 데이터 배치의 효과성을 평가하는 것.

제안 방법

  • 이질적 클러스터에서 기본 Hadoop 스케줄링 동작을 분석하여 부하 불균형 원인을 규명하는 것.
  • 노드 처리 능력의 차이를 고려한 수정된 작업 스케줄링 전략을 제안하는 것.
  • 데이터 집약적 작업에 대해 빠른 노드를 우선시하는 데이터 배치 기법을 도입하는 것.
  • 통제된 이질적 클러스터 환경에서 시뮬레이션 또는 벤치마킹을 통해 성능 향상을 평가하는 것.
  • 실세계 데이터 처리 패턴을 모델링하기 위해 워크로드 특성 분석을 사용하는 것.

실험 결과

연구 질문

  • RQ1Hadoop 클러스터에서의 노드 이질성이 클라우드 컴퓨팅 환경에서 전체 시스템 성능에 미치는 영향은 무엇인가?
  • RQ2Hadoop의 기본 스케줄링 메커니즘에서 이질적 노드 능력이 초래하는 주요 병목 현상은 무엇인가?
  • RQ3Hadoop 클러스터에서 다양한 노드 처리 능력을 반영하여 작업 스케줄링을 어떻게 적응시킬 수 있는가?
  • RQ4지능적인 데이터 배치가 이질적 클러스터에서 실행 시간 단축에 미치는 영향은 무엇인가?
  • RQ5노드 능력에 맞게 작업 스케줄링을 조정할 경우 성능 향상의 정도는 어느 정도인가?

주요 결과

  • 기본 스케줄러를 사용할 경우 이질적 클러스터는 부하 불균형으로 인해 심한 성능 저하를 보인다.
  • 기본 Hadoop 스케줄러는 노드 용량을 고려하지 않고 작업을 할당하여 고용량 노드의 활용도가 낮아진다.
  • 노드 능력에 기반한 지능적 스케줄링은 테스트된 구성에서 작업 완료 시간을 최대 30% 감소시킨다.
  • 빠른 노드에 최적화된 데이터 배치는 처리량을 향상시키고 I/O 병목 현상을 줄인다.
  • 제안된 지침은 이질적 클라우드 환경에서 자원 활용도와 시스템 효율성을 크게 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.