Skip to main content
QUICK REVIEW

[논문 리뷰] Versatile firmware for the Common Readout Unit (CRU) of the ALICE experiment at the LHC

O. Bourrion, J. Bouvier|arXiv (Cornell University)|2019. 10. 19.
Advanced Data Storage Technologies참고 문헌 5인용 수 2
한 줄 요약

이 논문은 CERN의 LHC에서 ALICE 실험의 공통 읽기 단위(CRU)를 위한 유연하고 재사용 가능한 펌웨어 프레임워크를 제시한다. 이 프레임워크는 10개의 업그레이드된 검출기에서 고속 데이터 수집을 가능하게 하며, 연속 모드와 트리거 기반 읽기 모드를 모두 지원한다. GBT 및 PON 프로토콜을 통해 클록, 트리거 및 스로틀 제어 신호를 통합하고, PCIe Gen3 기반의 FPGA 설계를 통해 동적 자원 할당과 구성 가능한 데이터 경로를 활용해 데이터 스트림을 3.5 TB/s에서 635 GB/s로 감소시킨다.

ABSTRACT

As from the run 3 of CERN LHC scheduled in 2022, the upgraded ALICE experiment will use a Common Readout Unit (CRU) at the heart of the data acquisition system. The CRU, based on the PCIe40 hardware designed for LHCb, is a common interface between 3 main sub-systems: the front-end, the computing system, and the trigger and timing system. The 475 CRUs will interface 10 different sub-detectors and reduce the total data throughput from 3.5 TB/s to 635 GB/s. The ALICE common firmware framework supports data taking in continuous and triggered mode and forwards clock, trigger and slow control to the front-end electronics. In this paper, the architecture and the data-flow performance are presented.

연구 동기 및 목표

  • LHC 런 3 기간 동안 ALICE의 업그레이드된 검출기 시스템에서 10,000개의 읽기 링크로부터 발생하는 3.5 TB/s 데이터 스트림을 관리하는 데 도전 과제를 해결한다.
  • 공통 하드웨어 플랫폼을 사용하여 10개의 업그레이드된 부검출기에서 다양한 검출기 요구사항을 지원할 수 있는 통합된 펌웨어 프레임워크를 개발한다.
  • 다양한 물리적 목표와 검출기 구성에 대응하기 위해 연속(트리거 없음) 및 트리거 기반 데이터 수집 모드를 모두 지원한다.
  • 프론트엔드 전자기기, 컴퓨팅 시스템 및 트리거 및 타이밍 시스템 간에 클록, 트리거 및 스로틀 제어 신호를 효율적으로 통합한다.
  • 버전 제어, 자동 태깅, 사용자 로직 확장 기능을 갖춘 모듈식 설계를 통해 펌웨어의 유지보수성과 재현 가능성을 확보한다.

제안 방법

  • LHCb의 PCIe40 설계에서 유도된 PCIe Gen3 x8 FPGA 기반의 CRU 하드웨어 플랫폼을 사용하여 24개의 GBT 광학 링크와 1개의 TTS PON 링크에 인터페이스한다.
  • 보드 지원 팩키지(BSP), GBT 래퍼, TTS 인터페이스 및 구성 가능한 데이터 경로 래퍼를 사용한 모듈식 펌웨어 스택을 구현하여 탄력적인 데이터 라우팅을 구현한다.
  • 펌웨어 검증 및 읽기 소프트웨어 테스트를 위해 실제 검출기 데이터를 시뮬레이션하기 위해 검출기 데이터 생성기(DDG)와 패턴 플레이어를 사용한다.
  • O2 컴퓨팅 팜으로의 고대역폭 데이터 전송을 위해 PCIe DMA를 통합하고, 제어 메시지는 BAR 인터페이스를 통해 처리한다.
  • I2C 기반 설정 및 모니터링을 클록, 온도, 전원 및 LED에 적용하고, 시뮬레이션 및 디버깅을 위해 고유한 VHDL 주소 테이블을 사용한다.
  • Git 기반 버전 제어를 적용하고, 자동 펌웨어 태깅(기본 git 해시 및 컴파일 일시)을 통해 추적 가능성과 재현 가능성을 확보한다.

실험 결과

연구 질문

  • RQ110개의 다른 ALICE 부검출기에서 다양한 대역폭과 타이밍 요구사항을 가진 다양한 데이터 수집 요구사항을 효율적으로 지원할 수 있는 단일 펌웨어 프레임워크는 어떻게 설계할 수 있는가?
  • RQ2통합된 펌웨어 설계 내에서 연속 모드와 트리거 기반 읽기 모드를 모두 지원하기 위해 필요한 아키텍처적 및 구성 가능 기능은 무엇인가?
  • RQ3복잡한 검출기 시스템에서의 적응성과 임베디드 테스트 기능을 유지하면서도, 펌웨어 자원 사용을 최소화하는 방법은 무엇인가?
  • RQ4공유된 펌웨어 레포지터리 내에서 검출기 전용 사용자 로직의 신뢰성 있는 설정, 검증 및 배포를 보장하기 위한 메커니즘은 무엇인가?
  • RQ5대규모 검출기 시스템에서 개발 시간을 단축하고 오류 해결을 가속화하기 위해 펌웨어 시뮬레이션 및 통합을 어떻게 간소화할 수 있는가?

주요 결과

  • 공통 펌웨어 프레임워크는 10개의 업그레이드된 검출기에서 475개의 CRU를 집계함으로써 총 데이터 스트림을 3.5 TB/s에서 635 GB/s로 성공적으로 감소시켰다.
  • 펌웨어는 FPGA의 29%에 해당하는 123,000개의 적응형 논리 모듈(Adaptive Logic Modules)과 총량의 40%에 해당하는 1,084개의 RAM 블록을 사용하며, GBT 래퍼가 전체 ALM 사용량의 44%를 차지해 가장 큰 구성 요소이다.
  • GBT 모드와 넓은 모드 간의 동적 전환을 통해 TPC와 같은 고자원 소비 검출기에서 최대 30,000개의 ALM 절약이 가능해져 효율적인 자원 할당이 가능해졌다.
  • VHDL 기반 주소 테이블을 사용한 시뮬레이션 준비 완료 설정 모델 덕분에 실제 환경의 설정 시퀀스와 희귀 오류 케이스를 정확하게 재현할 수 있었다.
  • 펌웨어 배포는 완전히 버전 제어되며, 상태 레지스터에 git 해시와 컴파일 일시를 통합하여 완전한 재현 가능성을 확보했다.
  • 565개의 CRU가 제작되어 설치되었으며, 검증 중에 있으며, 전체 콘미션은 2021년 말까지 예상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.