Skip to main content
QUICK REVIEW

[논문 리뷰] The Open Connectome Project Data Cluster: Scalable Analysis and Vision for High-Throughput Neuroscience

Randal Burns, William Gray Roncal|arXiv (Cornell University)|2013. 06. 15.
Functional Brain Connectivity Studies참고 문헌 33인용 수 26
한 줄 요약

오픈 커넥톰 프로젝트 데이터 클러스터는 연결망학에서 3차원 전자현미경 데이터의 고처리량 분석을 위해 확장 가능하고 RESTful이며 NoSQL 기반의 데이터베이스 시스템을 제안한다. 공간 데이터를 공간을 채우는 곡선을 사용해 분할하고 쓰기 작업을 SSD에 위탁함으로써, 이 시스템은 고처리량 입출력를 달성한다—단일 저비용 SSD 노드가 고성능 데이터베이스 노드를 능가하는 결과를 보이며, 뇌 영상 데이터의 테라바이트 규모를 대상으로 하는 신경 회로 재구성에 적합한 확장 가능한 병렬 분석을 가능하게 한다.

ABSTRACT

We describe a scalable database cluster for the spatial analysis and annotation of high-throughput brain imaging data, initially for 3-d electron microscopy image stacks, but for time-series and multi-channel data as well. The system was designed primarily for workloads that build connectomes---neural connectivity maps of the brain---using the parallel execution of computer vision algorithms on high-performance compute clusters. These services and open-science data sets are publicly available at http://openconnecto.me. The system design inherits much from NoSQL scale-out and data-intensive computing architectures. We distribute data to cluster nodes by partitioning a spatial index. We direct I/O to different systems---reads to parallel disk arrays and writes to solid-state storage---to avoid I/O interference and maximize throughput. All programming interfaces are RESTful Web services, which are simple and stateless, improving scalability and usability. We include a performance evaluation of the production system, highlighting the effectiveness of spatial data organization.

연구 동기 및 목표

  • 고처리량 전자현미경에서 매일 테라바이트 단위로 발생하는 데이터로 인한 신경과학 분야의 확장성 위기를 해결한다.
  • 연구소 워크스테이션의 능력 이상의 대규모 뇌 영상 데이터를 저장, 관리, 분석할 수 있는 공동체 기반의 개방 과학 데이터 인fra를 구축한다.
  • 분산 데이터베이스 시스템과 병렬 컴퓨터 비전 알고리즘을 통합하여 자동화되고 확장 가능한 연결망 재구성 환경을 제공한다.
  • 인간 및 쥐 뇌 연결망(10^11개 뉴런, 10^15개 시냅스)의 막대한 스케일을 처리할 수 있는 시스템을 구축하여 수동 애너테이션 의존도를 줄인다.
  • 공개 웹 서비스를 통해 데이터 저장, 분석, 공유를 가능하게 하여 연결망학 및 관련 분야의 발견을 가속화한다.

제안 방법

  • 공간 인덱스가 부여된 3차원 영상 스택을 관리하기 위해 데이터 집약적 컴퓨팅 원리를 적용한 분산 NoSQL 기반 데이터베이스 클러스터를 설계한다.
  • 공간을 채우는 곡선을 사용해 클러스터 노드 간 데이터를 분할하여 효율적인 공간 인덱싱과 로드 밸런싱을 가능하게 한다.
  • 읽기 작업은 병렬 디스크 어레이로, 쓰기 작업은 고체 상태 드라이브(SSD)로 라우팅하여 입출력 간섭을 제거하고 처리량을 극대화한다.
  • 모든 시스템 인터페이스를 상태 없는 RESTful 웹 서비스로 구현하여 확장성과 상호운용성을 향상시킨다.
  • 큐브로이드와 메타데이터 테이블로 구성된 다층 데이터 구조를 사용해 시냅스와 같은 신경 구조의 효율적 인덱싱 및 쿼리 가능성을 확보한다.
  • 기존의 공간 데이터베이스 기법(예: 영역 4분할 트리, 테셀레이션)을 활용하고, 시냅스 탐지 및 세그멘테이션과 같은 뉴런과학 전용 워크로드에 맞게 적응시킨다.

실험 결과

연구 질문

  • RQ1어떻게 분산 데이터베이스 시스템을 설계하여 연결망 재구성에 적합한 테라바이트 규모의 3차원 전자현미경 데이터에 대해 확장 가능하게 만들 수 있는가?
  • RQ2혼합 읽기/쓰기 패턴을 보이는 고처리량 신경과학 워크로드에서 처리량을 극대화하기 위한 입출력 최적화 전략은 무엇인가?
  • RQ3신경 애너테이션 파이프라인에서 일반적인 랜덤 쓰기 워크로드에서 저비용 SSD 기반 노드가 고성능 데이터베이스 노드를 능가할 수 있는가?
  • RQ4RESTful 웹 서비스와 개방 과학 원칙은 대규모 신경과학 데이터 분석에서 접근성과 협업을 얼마나 향상시킬 수 있는가?
  • RQ5공간을 채우는 곡선을 사용한 공간 데이터 분할이 뉴런 과학 이미지 분석에서 로드 분포 및 쿼리 성능을 얼마나 향상시킬 수 있는가?

주요 결과

  • 소규모 랜덤 쓰기 워크로드에서 저비용 SSD 노드가 고성능 데이터베이스 노드보다 150퍼센트 이상 높은 쓰기 처리량을 달성한다.
  • 단일 SSD 노드(<3,000달러)가 고성능 데이터베이스 노드(18,000달러 이상)의 전체 쓰기 워크로드를 성공적으로 오프로드하여 비용 효율적인 확장성을 입증한다.
  • 실제 환경 조건에서 노드당 초당 73개 이상의 시냅스를 업로드할 수 있으며, 데이터 국소성과 요청 배치 덕분에 더 높은 처리량을 기록한다.
  • 공간을 채우는 곡선을 사용한 공간 분할은 클러스터 전반에서 데이터 분포 및 쿼리 성능을 크게 향상시킨다.
  • 상태 없는 RESTful API 설계는 시스템의 확장성과 사용성을 향상시키며, 다양한 분석 파이프라인과의 통합 가능성을 제공한다.
  • 이 플랫폼은 현재까지 가장 큰 이미지 스택과 가장 세밀한 신경 회로 재구성을 관리하여, 대규모 연결망학에 대한 그 능력을 검증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.