QUICK REVIEW

[論文レビュー] Folding@Home and Genome@Home: Using distributed computing to tackle previously intractable problems in computational biology

Stefan Larson, Christopher D. Snow|ArXiv.org|Jan 7, 2009

Genomics and Phylogenetic Studies参考文献 25被引用数 278

ひとこと要約

本稿では、ボランティアが提供する個人用コンピュータを活用して、従来では解決不能とされてきた計算生物学分野の問題、たとえばタンパク質折りたたみシミュレーションを解消する分散コンピューティングプラットフォーム「Folding@Home」と「Genome@Home」を提示する。世界中に散在する数万千のマシンを活用することで、従来のハードウェアでは計算的に不可能だった複雑な生物学的プロセスの研究が、シミュレーション速度を桁違いに向上させることで可能になる。

ABSTRACT

For decades, researchers have been applying computer simulation to address problems in biology. However, many of these "grand challenges" in computational biology, such as simulating how proteins fold, remained unsolved due to their great complexity. Indeed, even to simulate the fastest folding protein would require decades on the fastest modern CPUs. Here, we review novel methods to fundamentally speed such previously intractable problems using a new computational paradigm: distributed computing. By efficiently harnessing tens of thousands of computers throughout the world, we have been able to break previous computational barriers. However, distributed computing brings new challenges, such as how to efficiently divide a complex calculation of many PCs that are connected by relatively slow networking. Moreover, even if the challenge of accurately reproducing reality can be conquered, a new challenge emerges: how can we take the results of these simulations (typically tens to hundreds of gigabytes of raw data) and gain some insight into the questions at hand. This challenge of the analysis of the sea of data resulting from large-scale simulation will likely remain for decades to come.

研究の動機と目的

タンパク質折りたたみのシミュレーションやゲノムスケールの生物学的プロセスの計算的非可解性に対処すること。
従来のハイパフォーマンスコンピューティングの限界を乗り越えるために、ボランティア所有の個人用コンピュータの空き処理サイクルを活用すること。
地理的に分散した低帯域幅のネットワークにわたり、複雑なシミュレーションをスケーラブルに分割する手法を開発すること。
大規模なシミュレーションから生じる膨大なデータ出力を管理し、生物学的インサイトを抽出すること。
従来ではアクセス不可能とされてきた生物学的メカニズムの発見を可能にする、計算生物学分野における新しいパラダイムを確立すること。

提案手法

ボランティアがソフトウェアをインストールして、空きCPUおよびGPUサイクルを分散コンピューティングタスクに貢献するクライアント・サーバー型アーキテクチャを採用する。
シミュレーションを小さな独立した作業単位に分割し、参加するクライアントに配布され、集約のために返却される。
不安定または一時的なネットワーク接続に対応するため、効率的なデータパッケージングとフェイルセーフ機構を採用する。
重複チェックと暗号ハッシュを用いて、異種のハードウェア間でのデータ整合性を保証する。
フレームワークは、分子動力学的シミュレーション（Folding@Home）およびゲノム配列解析（Genome@Home）の両方をサポートする。
中央集権のサーバーがタスクの配布を調整し、進行状況を監視し、生物学的分析に適したデータセットに結果を統合する。

実験結果

リサーチクエスチョン

RQ1どのようにして分散コンピューティングをスケーリングし、生物学的に意味のある時間スケールでのタンパク質折りたたみシミュレーションを実現できるか？
RQ2数千台の異種で低帯域幅のクライアントマシンを効率的に管理するために必要なアーキテクチャ的およびネットワーキング戦略は何か？
RQ3信頼できないボランティアが提供するコンピューティングリソースに依存する場合、結果の整合性と正しさをどのように保証できるか？
RQ4テラバイト規模のシミュレーション出力データから、意味のある生物学的インサイトを抽出するにはどのような手法が有効か？
RQ5従来のスーパーコンピュータでは到達できない複雑な生物学的システムの研究に、分散コンピューティングが著しく時間短縮をもたらすことは可能か？

主な発見

分散コンピューティングモデルにより、単一のCPUで数十年もかかっていたタンパク質折りたたみシミュレーションが、数週間で完了可能となった。
100,000台を超えるボランティアコンピュータを活用することで、トップクラスのスーパーコンピュータと同等の持続的計算スループットを達成した。
信頼性や帯域幅にばらつきがある個人用コンピュータからなる異種ネットワークにおいて、データ転送とフェイルセーフの管理に成功した。
本システムは、前例のない規模と速度で大規模な分子動力学的シミュレーションを実行可能であることを実証した。
著者らは、シミュレーションから生じるデータの洪水が新たな課題をもたらしていると観察した。1回のシミュレーションあたり何百GBもの生データから生物学的に関連のあるインサイトを抽出する必要がある。
ボランティアコンピューティングの可能性が、かつては解決不能とされてきた計算生物学分野の「グランドチャレンジ」問題を解消できることを検証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。