QUICK REVIEW

[论文解读] A Multi-Pass Approach to Large-Scale Connectomics

Yaron Meirovitch, Alexander Matveev|arXiv (Cornell University)|Dec 7, 2016

Neural dynamics and brain function参考文献 35被引用 39

一句话总结

本文提出了一种多轮连接组学流水线，可在单台多核系统上实现实时、高吞吐量地从大规模电子显微镜数据中重建神经元形态。通过结合使用优化卷积神经网络的快速分割与基于分水岭的过分割，再辅以后续的慢速轮次进行错误修正（尤其是合并错误和断裂轴突），该方法在单台系统上实现了接近每小时一太字节的处理速度，仅用5小时即完成了完整Kasthuri数据集（463 GB）的重建，相比以往的分布式系统将处理时间减少了90%。

ABSTRACT

The field of connectomics faces unprecedented "big data" challenges. To reconstruct neuronal connectivity, automated pixel-level segmentation is required for petabytes of streaming electron microscopy data. Existing algorithms provide relatively good accuracy but are unacceptably slow, and would require years to extract connectivity graphs from even a single cubic millimeter of neural tissue. Here we present a viable real-time solution, a multi-pass pipeline optimized for shared-memory multicore systems, capable of processing data at near the terabyte-per-hour pace of multi-beam electron microscopes. The pipeline makes an initial fast-pass over the data, and then makes a second slow-pass to iteratively correct errors in the output of the fast-pass. We demonstrate the accuracy of a sparse slow-pass reconstruction algorithm and suggest new methods for detecting morphological errors. Our fast-pass approach provided many algorithmic challenges, including the design and implementation of novel shallow convolutional neural nets and the parallelization of watershed and object-merging techniques. We use it to reconstruct, from image stack to skeletons, the full dataset of Kasthuri et al. (463 GB capturing 120,000 cubic microns) in a matter of hours on a single multicore machine rather than the weeks it has taken in the past on much larger distributed systems.

研究动机与目标

解决连接组学中的大数据瓶颈问题，即现代显微镜产生的拍字节级电子显微镜数据集已超出现有处理流水线的处理能力。
开发一种实时、可扩展的解决方案，用于大规模神经元形态重建，该方案高效运行于共享内存多核系统，而非大规模分布式集群。
在保持与最先进方法相当的分割精度的同时，大幅减少计算时间，从而实现算法的快速迭代与测试。
提出一种多轮框架，将快速近似分割与针对性的计算密集型错误修正分离，以优化资源使用。

提出的方法

实现一个快速轮次流水线，使用新型浅层卷积神经网络从电子显微镜图像堆栈中预测膜概率。
应用基于分水岭的过分割，随后通过多核优化的聚合（NeuroProof）生成初始神经元分割结果。
采用稀疏慢速轮次方法，仅对被标记为高概率错误区域进行重新分割，将计算资源集中于必要区域。
开发一种基于机器学习的方法MaskExtend，采用自定义CNN架构，通过在带二项分布噪声的随机体素块上进行训练，以延伸断裂的轴突段。
设计一种形态学错误检测系统，识别生物学上不合理的X型连接作为合并错误，尤其针对细小或复杂的神经元突起。
在相邻图像切片之间应用块间合并，以确保空间一致性并纠正切片间的分割漂移。

实验结果

研究问题

RQ1多轮分割流水线是否能在单台共享内存多核系统上实现实时处理大规模电子显微镜数据集？
RQ2如何高效分配计算资源，在保持高分割精度的同时最小化处理时间？
RQ3基于机器学习的错误修正方法是否能比传统方法更有效地检测并修复形态学错误（如轴突分裂和合并伪影）？
RQ4通过有针对性的慢速轮次优化，能否在不重新处理整个数据集的前提下，有效修正快速轮次的初始分割结果？

主要发现

快速轮次流水线在单台多核机器上仅用5小时即处理完完整的Kasthuri数据集（463 GB，约100,000 µm³），相比以往的分布式系统减少了90%的处理时间。
在AC3-256测试集上，该流水线在3nm分辨率下的VI（信息差异）得分为1.66，优于此前最佳结果1.99，表现更优。
慢速轮次修正框架成功重建了超过100根轴突及数百个轴突终扣（包括贯穿型终扣），通过MaskExtend CNN延伸断裂段实现。
通过仅在高错误区域集中昂贵的修正计算，显著减少了对全量数据重新处理的需求，实现了计算资源的高效利用。
系统实现了接近每小时一太字节的处理吞吐量，与多束电子束显微镜的数据采集速率相当。
这是首次实现对完整S1皮层体积（100,000 µm³）的全自动重建，证明了‘按需连接组学’在大规模神经回路绘图中的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。