[논문 리뷰] BIMCV COVID-19+: a large annotated dataset of RX and CT images from COVID-19 patients
대규모의 공개 BIMCV-COVID-19+ 데이터셋으로 흉부 X선, DX, CT 이미지를 포함하며 1,311명의 COVID-19+ 환자에서 방사선 소견 주석, ROI 분할을 적용하고 UMLS CUIs에 매핑했으며 자동 보고서 라벨링 파이프라인을 포함한다.
This paper describes BIMCV COVID-19+, a large dataset from the Valencian Region Medical ImageBank (BIMCV) containing chest X-ray images CXR (CR, DX) and computed tomography (CT) imaging of COVID-19+ patients along with their radiological findings and locations, pathologies, radiological reports (in Spanish), DICOM metadata, Polymerase chain reaction (PCR), Immunoglobulin G (IgG) and Immunoglobulin M (IgM) diagnostic antibody tests. The findings have been mapped onto standard Unified Medical Language System (UMLS) terminology and cover a wide spectrum of thoracic entities, unlike the considerably more reduced number of entities annotated in previous datasets. Images are stored in high resolution and entities are localized with anatomical labels and stored in a Medical Imaging Data Structure (MIDS) format. In addition, 10 images were annotated by a team of radiologists to include semantic segmentation of radiological findings. This first iteration of the database includes 1,380 CX, 885 DX and 163 CT studies from 1,311 COVID-19+ patients. This is, to the best of our knowledge, the largest COVID-19+ dataset of images available in an open format. The dataset can be downloaded from http://bimcv.cipf.es/bimcv-projects/bimcv-covid19.
연구 동기 및 목표
- AI 연구를 위한 지식 진단, 예후 및 삼진(triage)을 돕기 위한 다기관 대형 COVID-19 이미지 데이터세트 제공.
- radiologic 소견을 표준 통합 의료 언어체계(UMLS) CUIs에 매핑하여 언어 간 상호 운용 가능한 라벨링 가능하게 함.
- 감독 학습(포함된 분할) 지원을 위해 방사선 소견 및 위치 지정 주석, ROI 분할 포함.
- 연구 커뮤니티의 오픈 데이터 공유를 가능하게 하면서 robust한 데이터 익명화 및 윤리 준수 보장.
제안 방법
- 발렌시아 지역의 11개 병원에서 흉부 X선(CR/DX) 및 CT 이미지를 수집.
- 보고서 및 DICOM 헤더의 환자 데이터를 DPO 및 HIPAA-유사 보호장치를 따라 익명화하고, 보고서 비식별화에 NER을 사용하며 DICOM 기밀성 프로파일 적용.
- PadChest 기반 다중 라벨 LSTM에 주의(attention)를 추가하여 COVID-19 및 COVID-19 불확실 용어를 포함하도록 레이블을 재학습하고 라벨을 UMLS CUIs에 매핑하여 보고서에 자동으로 라벨링.
- 의사들이 XNAT OHIF 뷰어를 사용하여 10장의 이미지에 대해 ROI/참고 영역을 주석화하여 의미적 분할(UNet 유사) 학습을 가능하게 함.
- 원시 픽셀 데이터를 16비트 PNG/nii.gz 형식으로 변환하고 EfficientNet 기반 네트워크로 투영/방향을 추정하여 시야(view)를 표준화.
- nii.gz 이미지, JSON DICOM 필드, TSV/JSON 메타데이터 파일을 통해 환자 유래 데이터를 통합하는 Medical Imaging Data Structure(MIDS)로 데이터를 구성.
실험 결과
연구 질문
- RQ1스페인 방사선 보고서의 방사선 소견을 UMLS CUIs에 얼마나 효과적으로 매핑하여 언어 간 상호 운용 가능한 라벨링을 달성할 수 있는가?
- RQ2ROI 주석 및 의미론적 라벨이 COVID-19 영상의 병변 분할 및 탐지 모델 학습에 얼마나 유용한가?
- RQ3대규모 공개 데이터셋에서 자동 COVID-19 관련 라벨(COVID-19 및 COVID-19 불확실)의 품질과 신뢰성은 어떠한가?
- RQ4AI 연구를 위한 시점에서 BIMCV-COVID-19+ 데이터가 다양한 모달리티, 장치, 진단 시점까지 얼마나 다양하고 대표적인가?
주요 결과
- 첫 번째 반복에는 1,311명의 환자에서 1,380건의 CX, 885건의 DX, 163건의 CT 연구가 포함되어 있어 출시 시점에 가장 큰 공개 COVID-19 영상 데이터세트 중 하나이다.
- 핵심 소견에 대한 픽셀 수준 ROIs로 10장의 이미지를 주석화하여 분할 모델 학습을 가능하게 함(ground-glass opacities, consolidation 등).
- 방사선 라벨은 UMLS 하에 336 CUIs로 매핑되었고 COVID-19(CUI C5203670) 및 COVID-19 불확실(CUI C5203671) 어휘가 COVID-19 라벨링에 초점을 두기 위해 추가되었다.
- 자동 다중 라벨 보고서 분류기(Bidirectional LSTM with attention)가 COVID-19 용어를 포함하는 라벨 세트에서 검증 시 F1-micro 0.922를 달성했고 독립 테스트 세트에서 0.8281의 정확도를 보였다.
- COVID-19 관련 소견에 대해 분류기는 정밀도 0.961, 재현율 0.925, F1 0.943를 달성했고 COVID-19 불확실에 대해서는 정밀도 1.0, 재현율 0.846, F1 0.916였다.
- 전체 라벨-세트의 성능은 더 넓은 엔터티 세트에서 F1-가중치 0.9320, F1-마이크로 0.9378, 정확도 0.8281을 달성했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.