QUICK REVIEW

[論文レビュー] The Open Connectome Project Data Cluster: Scalable Analysis and Vision for High-Throughput Neuroscience

Randal Burns, William Gray Roncal|arXiv (Cornell University)|Jun 15, 2013

Functional Brain Connectivity Studies参考文献 33被引用数 26

ひとこと要約

Open Connectome Project Data Cluster は、神経回路の再構成を目的とした、スケーラブルで RESTful な NoSQL ベースのデータベースシステムを提供する。空間データを空間を埋める曲線（space-filling curves）を用いてパーティショニングし、書き込みを SSD にオフロードすることで、高い I/O スループットを達成した。その結果、ランダムな書き込みワークロードにおいて、低価格の SSD ノードが高価格のデータベースノードを上回ることを実証した。このシステムにより、テラバイト規模の脳画像データを並列にスケーラブルに分析でき、神経回路の再構成が可能になった。

ABSTRACT

We describe a scalable database cluster for the spatial analysis and annotation of high-throughput brain imaging data, initially for 3-d electron microscopy image stacks, but for time-series and multi-channel data as well. The system was designed primarily for workloads that build connectomes---neural connectivity maps of the brain---using the parallel execution of computer vision algorithms on high-performance compute clusters. These services and open-science data sets are publicly available at http://openconnecto.me. The system design inherits much from NoSQL scale-out and data-intensive computing architectures. We distribute data to cluster nodes by partitioning a spatial index. We direct I/O to different systems---reads to parallel disk arrays and writes to solid-state storage---to avoid I/O interference and maximize throughput. All programming interfaces are RESTful Web services, which are simple and stateless, improving scalability and usability. We include a performance evaluation of the production system, highlighting the effectiveness of spatial data organization.

研究の動機と目的

高スルーレートの電子顕微鏡が毎日出力するテラバイト規模のデータによって引き起こされる神経科学分野のスケーラビリティ危機に対処すること。
研究室のワークステーションの能力を超える大規模な脳画像データの保存・管理・分析を可能にする、コミュニティ主導型のオープンサイエンスデータインfra構築。
並列コンピュータビジョンアルゴリズムと分散データベースシステムを統合することで、自動的かつスケーラブルな神経回路の再構成を実現すること。
人間やマウスの脳神経回路（10^11 個のニューロン、10^15 個のシナプス）の膨大なスケールに対応できるシステムを構築し、手動アノテーションへの依存を減らすこと。
発見を加速させるために、公開の Web サービスを提供し、データの保存・分析・共有を可能にすること。

提案手法

空間インデックス付きの 3D イメージスタックを管理するため、データ集約型コンピューティングの原則に基づいた分散型 NoSQL ベースのデータベースクラスタを設計すること。
空間的インデックス付けと負荷分散を実現するため、空間を埋める曲線を用いてデータをクラスターノード間でパーティショニングすること。
I/O を最適化するため、読み取りを並列ディスクアレイに、書き込みをソリッドステートドライブ（SSD）にルーティングすることで、I/O の干渉を排除し、スループットを最大化すること。
すべてのシステムインターフェースをステートレスで RESTful な Web サービスとして実装することで、スケーラビリティと相互運用性を向上させること。
キューブォイドとメタデータテーブルを用いた多層構造のデータ組織を採用し、シナプスのような神経構造の効率的なインデックス付けとクエリを可能にすること。
既存の空間データベース技術（例：リージョン・クアッドツリー、タイル化）を活用し、シナプス検出やセグメンテーションといった神経科学特有のワークロードに適応させること。

実験結果

リサーチクエスチョン

RQ1神経回路の再構成に向け、テラバイト規模の 3D 電子顕微鏡データにスケーラブルに対応できる分散データベースシステムは、どのようにアーキテクチャ設計されるべきか？
RQ2混合読み取り／書き込みパターンを示す高スルーレートの神経科学ワークロードにおいて、I/O の最適化戦略として何がスループットを最大化できるか？
RQ3神経アノテーションパイプラインで一般的なランダム書き込みワークロードにおいて、低価格の SSD ベースのノードが高価格のデータベースノードを上回る性能を発揮できるか？
RQ4RESTful Web サービスとオープンサイエンスの原則は、大規模神経科学データ分析におけるアクセス性と共同作業をどの程度向上できるか？
RQ5空間を埋める曲線を用いた空間データパーティショニングは、神経画像解析における負荷分散とクエリパフォーマンスをどの程度改善できるか？

主な発見

小規模なランダム書き込みワークロードにおいて、安価な SSD ノードの書き込みスループットが高価格のデータベースノードを 150% 以上上回った。
1 つの SSD ノード（3000 ドル未満）が、高価格のデータベースノード（18000 ドル以上）の全書き込みワークロードを効果的にオフロードできた。これは、コスト効率の高いスケーラビリティを実証した。
実環境条件下で、ノードあたり 1 秒あたり 73 個以上のシナプスをアップロードでき、データローカリティとリクエストバッチ処理のおかげでさらに高いスループットが達成された。
空間を埋める曲線を用いた空間パーティショニングにより、クラスタ全体におけるデータの分散とクエリパフォーマンスが顕著に向上した。
RESTful でステートレスな API デザインにより、システムのスケーラビリティと使いやすさが向上し、多様な分析パイプラインへの統合が可能になった。
このプラットフォームは、これまでに記録された最大の画像スタックと最も詳細な神経構造再構成をすでに管理しており、大規模な神経回路の再構成に耐えうることを検証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。