QUICK REVIEW

[논문 리뷰] Progress Notes Classification and Keyword Extraction using Attention-based Deep Learning Models with BERT

Matthew F. Tang, Priyanka Gandhi|arXiv (Cornell University)|2019. 10. 13.

Topic Modeling참고 문헌 35인용 수 30

한 줄 요약

이 논문은 임상 진행 기록을 12개의 의료 분류로 분류하고 해석 가능한 关련어를 추출하기 위해 보정된 BERT에 추가된 어텐션 레이어를 사용하는 어텐션 기반 딥러닝 프레임워크를 제안한다. 모델은 97.6%의 분류 정확도를 달성하며 어텐션 가중치를 통해 의미적으로 관련성이 높은 단어를 효과적으로 강조하여 표준 BERT 모델보다 해석 가능성 향상을 입증한다.

ABSTRACT

Various deep learning algorithms have been developed to analyze different types of clinical data including clinical text classification and extracting information from 'free text' and so on. However, automate the keyword extraction from the clinical notes is still challenging. The challenges include dealing with noisy clinical notes which contain various abbreviations, possible typos, and unstructured sentences. The objective of this research is to investigate the attention-based deep learning models to classify the de-identified clinical progress notes extracted from a real-world EHR system. The attention-based deep learning models can be used to interpret the models and understand the critical words that drive the correct or incorrect classification of the clinical progress notes. The attention-based models in this research are capable of presenting the human interpretable text classification models. The results show that the fine-tuned BERT with the attention layer can achieve a high classification accuracy of 97.6%, which is higher than the baseline fine-tuned BERT classification model. In this research, we also demonstrate that the attention-based models can identify relevant keywords that are strongly related to the clinical progress note categories.

연구 동기 및 목표

12개의 의료 분류로 분류되는 익명화된 임상 진행 기록을 위한 해석 가능한 딥러닝 모델을 개발하는 것.
딥러닝 모델의 어텐션 메커니즘이 분류 결정을 이끄는 핵심어를 어떻게 강조할 수 있는지 조사하는 것.
분류 및 관련어 추출 성능에 미치는 영향을 분석하기 위해 BERT 기반 토큰 임베딩, 워드 임베딩, 원-핫 인코딩 등의 다양한 임베딩 전략을 비교하는 것.
다양한 의료 전문 분야에서 임상적으로 관련성이 높은 관련어를 식별하는 데 어텐션 기반 모델의 효과성을 평가하는 것.
각 분류별로 고주의어를 시각화하고 빈도 및 관련성을 분석함으로써 모델의 해석 가능성 향상.

제안 방법

분류 성능 및 해석 가능성 향상을 위해 보정된 BERT에 추가적인 자기어텐션 레이어를 적용한 모델.
세 가지 다른 모델을 훈련: 보정된 BERT에 어텐션을 추가한 모델(FT-BERT+Att), 사전학습된 BERT에 어텐션과 BiLSTM를 추가한 모델(PT-BERT+Att+BiLSTM), 원-핫 인코딩 임베딩에 어텐션과 BiLSTM를 추가한 모델(OE+Att+BiLSTM).
입력 문장 내 중요한 단어를 식별하고 강조하기 위해 어텐션 가중치를 사용하여 모델의 추론 과정을 시각화.
정규화된 예시에서 고주의어를 집계하여 정규화어를 제거한 후, 각 분류별로 빈도가 높은 관련어를 추출.
분류 정확도를 사용해 모델 성능을 평가하고, 수동 점검 및 겹침 분석을 통해 관련어의 관련성을 분석.
관련어 추출을 정밀화하고 낮은 신호를 가진 용어에서 노이즈를 줄이기 위해 어텐션 임계값 설정과 정규화어 필터링을 적용.

실험 결과

연구 질문

RQ1어텐션 기반 딥러닝 모델은 표준 보정된 BERT 모델에 비해 임상 진행 기록의 분류 정확도를 향상시킬 수 있는가?
RQ2어텐션 메커니즘이 진행 기록의 진짜 분류와 일치하는 임상적으로 관련성이 높은 관련어를 어느 정도 정확하게 식별할 수 있는가?
RQ3토큰 수준(BERT), 워드 수준, 원-핫 인코딩 등의 다양한 임베딩 전략이 추출된 관련어의 품질과 관련성에 어떤 영향을 미치는가?
RQ4어텐션 레이어의 통합이 임상 텍스트에서 의미 있고 맥락적으로 관련성이 높은 용어를 강조함으로써 모델의 해석 가능성 향상에 기여하는가?
RQ5다양한 모델 간에 추출된 관련어는 얼마나 일관성이 있는가? 이는 어텐션 기반 해석의 신뢰성에 대해 어떤 시사점을 제공하는가?

주요 결과

FT-BERT+Att 모델이 97.6%의 최고 분류 정확도를 기록하며 기준선인 보정된 BERT 모델을 초월했다.
어텐션 메커니즘이 유방 간호 분류에서 '유방', '암', '생검'과 같은 임상적으로 관련성이 높은 관련어를 성공적으로 강조하였으며, 다양한 모델 간에 높은 겹침을 보였다.
대부분의 분류에서 FT-BERT+Att 및 PT-BERT+Att+BiLSTM 모델은 1~3개의 매우 관련성이 높은 관련어를 식별한 반면, OE+Att+BiLSTM 모델은 성능이 열악했으며, 특히 비만관리(정확도 33%)와 같은 분류에서 두드러진 문제를 보였다.
원-핫 임베딩 모델은 의미적 이해가 부족하여 '노력'과 같은 일반적인 단어를 고주의어로 잘못 식별하는 경향이 있었으며, 맥락적 의미를 포착하지 못하는 한계를 보였다.
BERT 기반 모델 간의 관련어 겹침은 원-핫 모델보다 유의미하게 높았으며, 이는 의미적 임베딩이 의미 있는 어텐션 기반 해석에 필수적임을 시사한다.
정규화어 필터링 및 어텐션 임계값 설정을 적용한 후, 원-핫 모델은 일부 분류에서 10개의 관련어를 추출하지 못하여 관련어 추출에서의 불안정성을 더욱 드러냈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.