QUICK REVIEW

[논문 리뷰] RadGraph: Extracting Clinical Entities and Relations from Radiology Reports

Saahil Jain, Ashwin Agrawal|arXiv (Cornell University)|2021. 06. 28.

Topic Modeling인용 수 67

한 줄 요약

RadGraph는 흉부 X선 보고서에 대한 조밀한 영상의학 중심 정보 추출 스키마를 도입하고, 개발/테스트/추론 데이터셋을 공개하며, 엔티티 및 관계 추출에서 방사선과 전문의 수준의 성능에 근접한 심층 학습 모델(RadGraph Benchmark)을 제시합니다.

ABSTRACT

Extracting structured clinical information from free-text radiology reports can enable the use of radiology report information for a variety of critical healthcare applications. In our work, we present RadGraph, a dataset of entities and relations in full-text chest X-ray radiology reports based on a novel information extraction schema we designed to structure radiology reports. We release a development dataset, which contains board-certified radiologist annotations for 500 radiology reports from the MIMIC-CXR dataset (14,579 entities and 10,889 relations), and a test dataset, which contains two independent sets of board-certified radiologist annotations for 100 radiology reports split equally across the MIMIC-CXR and CheXpert datasets. Using these datasets, we train and test a deep learning model, RadGraph Benchmark, that achieves a micro F1 of 0.82 and 0.73 on relation extraction on the MIMIC-CXR and CheXpert test sets respectively. Additionally, we release an inference dataset, which contains annotations automatically generated by RadGraph Benchmark across 220,763 MIMIC-CXR reports (around 6 million entities and 4 million relations) and 500 CheXpert reports (13,783 entities and 9,908 relations) with mappings to associated chest radiographs. Our freely available dataset can facilitate a wide range of research in medical natural language processing, as well as computer vision and multi-modal learning when linked to chest radiographs.

연구 동기 및 목표

영상의학 보고서에 임상적으로 관련된 정보를 포괄하고 주석 가독성이 높은 새 정보 추출 스키마를 정의한다.
다층적 엔티티 및 관계 추출을 가능하게 하기 위해 보드 인증 의사의 주석이 달린 개발 및 테스트 데이터셋을 생성한다.
영상의학 보고서에 대해 엔티티와 관계 추출을 공동으로 수행하는 심층 학습 모델(RadGraph Benchmark)을 학습하고 평가한다.
주석 보고서를 흉부 방사선 사진과 연결하는 추론 데이터셋을 만들어 다중 모달 학습을 지원한다.
무료로 이용 가능한 데이터와 모델을 활용하여 의료 NLP 및 다중 모달 영상의학 응용 연구를 촉진한다.

제안 방법

네 가지 엔티티 유형(Anatomy, Observation: Definitely Present, Observation: Uncertain, Observation: Definitely Absent)과 세 가지 관계 유형(Suggestive Of, Located At, Modify)을 갖는 스키마를 제안한다.
개발용으로 MIMIC-CXR의 500개 보고서를 영상의학과 의사들이 14,579 엔티티와 10,889 관계로 주석한다.
크로스 인스티튜션 일반화 평가를 위해 MIMIC-CXR와 CheXpert의 보고서 100건(두 의사 per 보고서) 을 주석한다.
엔티티 인식과 관계 추출을 공동 또는 개별로 학습하는 심층 학습 모델인 RadGraph Benchmark를 개발하고, BERT 계열 및 다양한 생의학 사전 학습을 활용한 실험을 수행한다.
주석 보고서를 흉부 방사선 사진과 매핑하고 수백만 개의 엔티티/관계를 산출하는 220,763 MIMIC-CXR 보고서와 500 CheXpert 보고서에 대해 RadGraph Benchmark를 실행하여 추론 데이터셋을 생성한다.

실험 결과

연구 질문

RQ1컴팩트한 영상의학 특화 정보 추출 스키마가 영상의학 보고서의 발견 정보를 넓게 포괄할 수 있는가?
RQ2현대 NLP 모델이 영상의학 텍스트에서 엔티티와 관계를 모두 추출하는 능력은 방사선과 전문의와의 비교에서 어떠한가?
RQ3모델은 기관 간 일반화가 가능한가( MIMIC-CXR 대 CheXpert) 엔티티 및 관계 추출에서 영상의학 보고서에 대해?
RQ4주석 보고서를 흉부 방사선 사진에 연결하는 가능성은 다중 모달 학습을 가능하게 하는가?
RQ5 unified radiology 스키마 적용 시 실제 주석 과정의 도전과제 및 관찰자 간 변동성은 어떠한가?

주요 결과

RadGraph Benchmark는 MIMIC-CXR에서 관계 추출의 미시 F1 0.82, CheXpert에서 0.73을 달성했고 엔티티 인식에서 각각 미시 F1 0.94/0.91을 달성했다.
방사선과 전문의 벤치마크는 엔티티 인식에서 미시 F1 0.95–0.99, 관계 추출에서 미시 F1 0.83–0.95를 달성하며 두 데이터셋에서 자동 모델보다 우수하다.
추론 데이터셋은 220,763 MIMIC-CXR 보고서(약 6백만 개의 엔티티, 약 4백만 개의 관계)와 500 CheXpert 보고서(약 13,783 엔티티, 약 9,908 관계)의 주석을 포함하며 흉부 방사선 사진에 매핑된다.
스키마 커버리지는 Findings 및 Impression 섹션의 문장에서 높고, 개발 단계에서 평균 문장 커버리지는 약 87.7%, (MIMIC-CXR 테스트)에서 92.3%, CheXpert 테스트에서 70.7%의 문장, 50.8%의 토큰이라는 수치를 보인다.
관찰자 간 일치는 과제 및 데이터셋에 따라 달라지며, Cohen의 Kappa는 0.974(NER, MIMIC-CXR) 및 0.829(NER, CheXpert); 관계 Kappa는 0.841(MIMIC-CXR) 및 0.397(CheXpert)이다.
데이터셋은 미국 기관의 흉부 X-레이 보고서에 집중하며 비발견 섹션의 맥락 부족 및 데이터 간 분포 이동과 같은 한계를 인정한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.