QUICK REVIEW

[논문 리뷰] Multi-Label Classification of Patient Notes a Case Study on ICD Code Assignment

Tal Baumel, Jumana Nassour-Kassis|arXiv (Cornell University)|2017. 09. 27.

Machine Learning in Healthcare참고 문헌 26인용 수 50

한 줄 요약

논문은 대규모 다라벨 ICD 코드 할당에서 SVM, CBOW, CNN, HA-GRU를 비교하고, 계층적 주의(attention)가 있는 HA-GRU를 도입해 최첨단 결과와 투명한 의사결정을 얻는다.

ABSTRACT

In the context of the Electronic Health Record, automated diagnosis coding of patient notes is a useful task, but a challenging one due to the large number of codes and the length of patient notes. We investigate four models for assigning multiple ICD codes to discharge summaries taken from both MIMIC II and III. We present Hierarchical Attention-GRU (HA-GRU), a hierarchical approach to tag a document by identifying the sentences relevant for each label. HA-GRU achieves state-of-the art results. Furthermore, the learned sentence-level attention layer highlights the model decision process, allows easier error analysis, and suggests future directions for improvement.

연구 동기 및 목표

긴 discharge summaries에서 매우 큰 레이블 세트로 자동 ICD 코딩의 도전 과제를 해결한다.
MIMIC II 및 III 데이터셋에서 여러 모델(SVM, CBOW, CNN, HA-GRU)을 평가한다.
계층적 분할과 주의가 성능을 향상시키고 해석 가능성을 가능하게 하는 방법을 시演한다.
실제 임상 텍스트에서 모델 성능을 향상시키는 전처리 단계를 보여준다.

제안 방법

네 가지 모델 비교: tf-idf 특징을 사용하는 일대다 SVM; 단어 평균화를 이용한 CBOW 신경망 모델; 1차원 컨볼루션과 맥스 풀링을 갖춘 CNN; 계층적 양방향 GRU와 레이블별 주의를 갖춘 HA-GRU.
spaCy 기반 토크나이제이션, 비알파벳 문자 매핑을 의도 토큰으로 변환, 편집 거리 기반 어휘 정규화를 사용하여 텍스트를 전처리한다.
긴 문서를 중첩적으로 문장으로 분할하여 잘림 없이 장문 문서 모델링을 가능하게 한다.
HA-GRU에서 문서 수준의 레이블별 주의를 적용하여 각 ICD 코드에 해당하는 관련 문장을 식별한다.
MIMIC II 및 MIMIC III에서 모델을 학습하고, 두 설정(전체 ICD-9 코드와 롤업된 3자리 코드)에서 Micro-F1로 평가한다.

실험 결과

연구 질문

RQ1기본 모델(SVM, CBOW, CNN)이 전체 ICD-9 코드 집합과 롤업된 3자리 코드에 대해 HA-GRU에 비해 어떤 성능을 보이는가?
RQ2계층적 분할과 주의가 긴 임상 노트의 다라벨 ICD 코딩에 대해 성능 향상을 가져오는가?
RQ3학습 세트 크기(MIMIC II 대 MIMIC III)가 모델 성능에 어떤 영향을 주는가?
RQ4토크나이제이션 및 전처리가 텍스트 기반 ICD 코딩 성능에 어떤 영향을 미치는가?
RQ5모델이 예측에 대한 해석 가능한 설명(주의 시각화)을 제공할 수 있는가?

주요 결과

모델	MIMIC II ICD9	MIMIC III ICD9	MIMIC II Rolled-up	MIMIC III Rolled-up
SVM	28.13%	22.25%	32.50%	53.02%
CBOW	30.60%	30.02%	42.06%	43.30%
CNN	33.25%	40.72%	46.40%	52.64%
HA-GRU	36.60%	40.52%	53.86%	55.86%

HA-GRU가 롤업된 ICD9 코드에서 최상의 결과를 제공하며, MIMIC II 및 III에서 CNN 및 SVM 기본 모델에 비해 두드러진 개선을 보인다.
롤업 설정에서 HA-GRU는 MIMIC III에서 Micro-F1 55.86%를 달성하며 최적의 기준점 대비 약 2.8% 포인트의 향상을 보인다.
전체 ICD-9 설정에서 CNN이 MIMIC III에 대해 기본 모델들 중 가장 강하게 성능을 보이며 HA-GRU보다 다소 앞서 있는 경우가 있다.
노이즈를 줄이기 위한 토크나이제이션 및 간단한 전처리가 CBOW 및 CNN의 성능을 약 0.5% 정도 향상시켰다.
HA-GRU는 해석 가능한 문장-단어 수준의 주의를 제공하여 의사결정 과정을 하이라이트하고 오류 분석(향후 담화 수준 고려)에 도움을 준다.
더 큰 MIMIC III 데이터셋에서 학습할 때 성능이 일반적으로 향상되며, 극단적 다라벨 ICD 코딩에서 데이터 규모의 이점을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.