QUICK REVIEW

[논문 리뷰] Big Data Analytics in Bioinformatics: A Machine Learning Perspective

Hirak J. Kashyap, Hasin A. Ahmed|arXiv (Cornell University)|2015. 06. 15.

Genetics, Bioinformatics, and Biomedical Research인용 수 72

한 줄 요약

이 논문은 생물정보학 분야에서 대용량 데이터 분석에 대한 기계학습 관점에서 제기되는 과제들을 다루며, 방대하고 이질적이며 점진적이고 지리적으로 분산된 생물학적 데이터를 처리하는 데 있어 도전 과제들을 제기한다. 기존의 대용량 데이터 도구와 기계학습 기법들을 검토하고, 유전자 조절 네트워크 구축 및 PPI 네트워크 분석과 같은 문제들에 대한 확장성, 고장 내성, 반복적 분석의 격차를 밝히며, 복잡한 생물정보학 워크로드를 최적화한 통합된 대용량 데이터 아키텍처의 필요성을 제기한다.

ABSTRACT

Bioinformatics research is characterized by voluminous and incremental datasets and complex data analytics methods. The machine learning methods used in bioinformatics are iterative and parallel. These methods can be scaled to handle big data using the distributed and parallel computing technologies. Usually big data tools perform computation in batch-mode and are not optimized for iterative processing and high data dependency among operations. In the recent years, parallel, incremental, and multi-view machine learning algorithms have been proposed. Similarly, graph-based architectures and in-memory big data tools have been developed to minimize I/O cost and optimize iterative processing. However, there lack standard big data architectures and tools for many important bioinformatics problems, such as fast construction of co-expression and regulatory networks and salient module identification, detection of complexes over growing protein-protein interaction data, fast analysis of massive DNA, RNA, and protein sequence data, and fast querying on incremental and heterogeneous disease networks. This paper addresses the issues and challenges posed by several big data problems in bioinformatics, and gives an overview of the state of the art and the future research opportunities.

연구 동기 및 목표

생물정보학 분야에서 막대하고 이질적이며 점진적인 생물학적 데이터를 분석하는 데 증가하는 과제를 다루기.
생물정보학에서 흔한 반복적이고 데이터 의존적인 기계학습 워크로드를 처리하는 데 있어 기존의 대용량 데이터 플랫폼인 MapReduce의 한계를 규명하기.
특히 Hadoop, 클라우드 플랫폼, 메모리 기반 컴퓨팅을 활용한 기술들을 중심으로 생물정보학 분야의 대용량 데이터 분석을 위한 기존 도구와 기술들을 조사하기.
공통된 표준화된, 확장성 있고 고장 내성 있는 대용량 데이터 아키텍처의 부족을 강조하기. 특히 공통 발현 네트워크 구축 및 질병 네트워크 질의와 같은 핵심 생물정보학 문제들에 대해.
복잡한 생물학적 데이터를 위한 반복적, 병렬적, 다중 시각 기계학습을 지원하는 통합된 대용량 데이터 분석 프레임워크의 필요성을 제기하기.

제안 방법

최신 대용량 데이터 플랫폼(예: Hadoop, MapReduce, Storm)과 생물정보학 워크로드에 대한 적용 가능성에 대해 조사하였다.
생물정보학에서 반복적이고 복잡한 데이터 의존성을 다루기 위한 점진적, 병렬적, 다중 시각 클러스터링과 같은 기계학습 기법들을 검토하였다.
배치 처리 모델(예: MapReduce)과 스트리밍 및 그래프 기반 아키텍처 간의 I/O 오버헤드 및 고장 내성 측면에서의 성능 트레이드오프를 분석하였다.
대규모 시퀀스 분석 및 경로 분석을 위한 기존 도구인 BioPig, Crossbow, SeqPig 및 클라우드 기반 플랫폼(CloVR, Rainbow)을 평가하였다.
메모리 기반 컴퓨팅과 그래프 기반 시스템을 활용해 기계학습 파이프라인에서의 I/O 비용을 줄이고 반복 처리를 최적화하는 방법을 논의하였다.
생물정보학 워크로드에 특화된 고장 내성, 확장성, 반복 계산 지원을 동시에 제공하는 통합된 대용량 데이터 아키텍처의 필요성을 제안하였다.

실험 결과

연구 질문

RQ1기존의 대용량 데이터 플랫폼인 MapReduce는 생물정보학에서 반복적이고 데이터 의존적인 기계학습 워크로드를 처리하는 데 어떻게 성능을 보이는가?
RQ2기존의 대용량 데이터 도구들은 생물학적 네트워크(예: PPI, 조절, 질병 네트워크) 분석을 위한 확장성 있고 점진적이고 고장 내성 있는 분석을 지원하는 데 있어 어떤 핵심적인 한계를 지니는가?
RQ3현재의 시퀀스 분석, 경로 분석, 유전자 네트워크 구축 도구들은 얼마나 분산 또는 클라우드 기반 컴퓨팅을 활용하고 있는가?
RQ4대용량 데이터 분석 플랫폼이 생물정보학에서 복잡하고 반복적인 기계학습을 효과적으로 지원하기 위해 가져야 할 아키텍처적 특성은 무엇인가?
RQ5메모리 기반 컴퓨팅과 그래프 기반 시스템은 배치 처리 모델 대비 생물정보학 분야의 대용량 데이터 분석 효율성을 얼마나 향상시킬 수 있는가?

주요 결과

MapReduce와 같은 전통적인 대용량 데이터 플랫폼은 데이터 의존성에 대한 최적화가 부족하고 I/O 오버헤드가 높아 생물정보학 분야의 반복적 기계학습 작업에 부적합하다.
BioPig와 Crossbow와 같은 도구들은 Hadoop을 활용해 대규모 시퀀스 분석을 수행하지만, 대부분의 생물정보학 문제—특히 네트워크 및 경로 분석—은 확장성 있고 분산 또는 클라우드 네이티브 솔루션을 갖추지 못해 있다.
그래프 기반 및 메모리 기반 컴퓨팅 플랫폼은 I/O 비용을 줄이고 반복 처리 성능을 향상시키는 데 잠재력이 있지만, 종종 고장 내성 부족이나 생물정보학 분야에서의 널리 보급되지 않은 점이 문제이다.
경로 분석을 위한 대부분의 기존 생물정보학 도구(예: GO-Elite, PathVisio, Pathway Processor)는 분산 또는 클라우드 기반 플랫폼에 기반하지 않아 확장성에 제한이 있다.
대용량 데이터 워크로드의 전반적인 스펙트럼—고용량, 고속도, 다양성, 신뢰성, 점진적 업데이트, 복잡한 반복 계산—을 지원하는 표준화되고 종합적인 대용량 데이터 아키텍처의 격차가 크다.
기계학습과 확장 가능한 대용량 데이터 플랫폼의 통합은 여전히 개발이 부족한 상태이며, 특히 주목할 만한 모듈 식별, 조절 네트워크 구축, 동적 질병 네트워크 질의와 같은 문제들에 대해 그렇다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.