QUICK REVIEW

[论文解读] The Open Connectome Project Data Cluster: Scalable Analysis and Vision for High-Throughput Neuroscience

Randal Burns, William Gray Roncal|arXiv (Cornell University)|Jun 15, 2013

Functional Brain Connectivity Studies参考文献 33被引用 26

一句话总结

开放连接组项目数据集群展示了一种可扩展的、基于RESTful接口的NoSQL数据库系统，专为连接组学中3D电子显微镜数据的高通量分析而设计。通过使用空间填充曲线对空间数据进行分区，并将写入操作卸载到固态硬盘（SSD）上，该系统实现了高I/O吞吐量——证明单个低成本SSD节点在随机写入工作负载下可超越高端数据库节点的性能，从而实现对TB级脑成像数据的可扩展、并行分析，支持神经回路重建。

ABSTRACT

We describe a scalable database cluster for the spatial analysis and annotation of high-throughput brain imaging data, initially for 3-d electron microscopy image stacks, but for time-series and multi-channel data as well. The system was designed primarily for workloads that build connectomes---neural connectivity maps of the brain---using the parallel execution of computer vision algorithms on high-performance compute clusters. These services and open-science data sets are publicly available at http://openconnecto.me. The system design inherits much from NoSQL scale-out and data-intensive computing architectures. We distribute data to cluster nodes by partitioning a spatial index. We direct I/O to different systems---reads to parallel disk arrays and writes to solid-state storage---to avoid I/O interference and maximize throughput. All programming interfaces are RESTful Web services, which are simple and stateless, improving scalability and usability. We include a performance evaluation of the production system, highlighting the effectiveness of spatial data organization.

研究动机与目标

解决由高通量电子显微镜每天产生TB级数据所引发的神经科学可扩展性危机。
构建一个由社区驱动的开放科学数据基础设施，用于存储、管理并分析超出实验室工作站处理能力的大规模脑成像数据。
通过将并行计算机视觉算法与分布式数据库系统集成，实现自动化、可扩展的连接组重建。
通过构建能够处理人类和小鼠大脑连接组（10^11个神经元，10^15个突触）大规模数据的系统，减少对人工标注的依赖。
提供公开的Web服务用于数据存储、分析和共享，以加速连接组学及相关领域的发现。

提出的方法

基于数据密集型计算原理，设计一种使用空间索引3D图像堆栈的分布式NoSQL数据库集群。
使用空间填充曲线在集群节点间分区数据，以实现高效的空问索引和负载均衡。
通过将读取操作路由到并行磁盘阵列、将写入操作路由到固态硬盘（SSD）来优化I/O，消除I/O干扰并最大化吞吐量。
将所有系统接口实现为无状态、RESTful的Web服务，以提高可扩展性和互操作性。
采用多层数据组织结构，包括立方体和元数据表，以支持对突触等神经结构的高效索引和查询。
利用现有的空间数据库技术（如区域四叉树、镶嵌技术）并针对神经科学特定工作负载（如突触检测和分割）进行适配。

实验结果

研究问题

RQ1如何设计一种分布式数据库系统，以实现对TB级3D电子显微镜数据的可扩展连接组重建？
RQ2在具有混合读写模式的高通量神经科学工作负载中，哪些I/O优化策略可最大化吞吐量？
RQ3在典型神经标注流水线的随机写入工作负载下，基于低成本SSD的节点是否能够超越高端数据库节点的性能？
RQ4RESTful Web服务和开放科学原则在多大程度上可提升大规模神经科学数据分析的可访问性和协作性？
RQ5使用空间填充曲线进行空间数据分区在多大程度上可改善神经科学图像分析中集群的负载分布和查询性能？

主要发现

在小规模随机写入工作负载下，该系统在低成本SSD节点上的写入吞吐量比高端数据库节点高出超过150%。
单个SSD节点（成本低于3000美元）成功卸载了整个数据库节点（成本超过18000美元）的写入工作负载，证明了其成本效益的可扩展性。
在真实工作条件下，系统每秒每节点可上传超过73个突触，吞吐量更高得益于数据局部性和请求批处理。
使用空间填充曲线进行空间分区显著改善了集群中数据分布和查询性能。
RESTful无状态API设计增强了系统的可扩展性和可用性，支持与多样化分析流水线的集成。
该平台已成功管理迄今为止最大规模的图像堆栈和最精细的神经结构重建，验证了其在大规模连接组学中的能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。