QUICK REVIEW

[論文レビュー] Progress Notes Classification and Keyword Extraction using Attention-based Deep Learning Models with BERT

Matthew F. Tang, Priyanka Gandhi|arXiv (Cornell University)|Oct 13, 2019

Topic Modeling参考文献 35被引用数 30

ひとこと要約

本稿では、12種類の医学的カテゴリーに臨床プログレスノートを分類し、解釈可能なキーワードを抽出するために、微調整されたBERTに追加のアテンション層を組み合わせたアテンションベースのディープラーニングフレームワークを提案する。モデルは97.6％の分類精度を達成し、アテンション重みを通じて意味的に関連する語を効果的に強調しており、標準のBERTモデルよりも解釈性が向上していることを示している。

ABSTRACT

Various deep learning algorithms have been developed to analyze different types of clinical data including clinical text classification and extracting information from 'free text' and so on. However, automate the keyword extraction from the clinical notes is still challenging. The challenges include dealing with noisy clinical notes which contain various abbreviations, possible typos, and unstructured sentences. The objective of this research is to investigate the attention-based deep learning models to classify the de-identified clinical progress notes extracted from a real-world EHR system. The attention-based deep learning models can be used to interpret the models and understand the critical words that drive the correct or incorrect classification of the clinical progress notes. The attention-based models in this research are capable of presenting the human interpretable text classification models. The results show that the fine-tuned BERT with the attention layer can achieve a high classification accuracy of 97.6%, which is higher than the baseline fine-tuned BERT classification model. In this research, we also demonstrate that the attention-based models can identify relevant keywords that are strongly related to the clinical progress note categories.

研究の動機と目的

匿名化された臨床プログレスノートを12の医学的カテゴリーに分類する解釈可能なディープラーニングモデルの開発。
ディープラーニングモデルにおけるアテンション機構が、分類意思決定を駆動するキーワードをどのように強調できるかの調査。
分類およびキーワード抽出性能に与える影響を比較するため、BERTベースのトークン埋め込み、単語埋め込み、およびワンホットエンコーディングの異なる埋め込み戦略の検討。
さまざまな医学専門分野にわたり、臨床的に関連するキーワードを特定する際のアテンションベースのモデルの有効性の評価。
各カテゴリーごとの高アテンション語の頻度と関連性を分析することで、モデルの解釈性を向上させる。

提案手法

分類性能と解釈性の向上を目的として、微調整されたBERTに追加の自己アテンション層を組み合わせたモデル。
3つの異なるモデルを訓練：微調整されたBERTにアテンションを追加（FT-BERT+Att）、事前学習済みBERTにアテンションとBiLSTMを追加（PT-BERT+Att+BiLSTM）、ワンホットエンコーディング埋め込みにアテンションとBiLSTMを追加（OE+Att+BiLSTM）。
アテンション重みを用いて入力文内の重要な語を特定・強調し、モデルの推論プロセスを可視化。
ストップワードを除いた後、正しく分類された例全体にわたる高アテンション語を集約することで、各カテゴリーごとの上位頻出キーワードを抽出。
分類精度を評価し、キーワードの関連性は手動による検査とオーバーラップ解析を通じて分析。
キーワード抽出の精度を向上させるために、アテンションしきい値の設定とストップワードフィルタリングを適用し、低信号語によるノイズを低減。

実験結果

リサーチクエスチョン

RQ1アテンションベースのディープラーニングモデルは、標準の微調整済みBERTと比較して、臨床プログレスノートの分類精度を向上させることができるか？
RQ2アテンション機構は、プログレスノートの真のカテゴリーと整合する臨床的に関連するキーワードをどの程度正確に特定できるか？
RQ3トークンレベル（BERT）、単語レベル、ワンホットの異なる埋め込み戦略が、抽出キーワードの質と関連性に与える影響は何か？
RQ4アテンション層の統合は、臨床テキストにおける意味的・文脈的に関連する語を強調することで、モデルの解釈性を向上させるか？
RQ5複数のモデル間で抽出されたキーワードの一貫性はどの程度か？これは、アテンションベースの解釈の信頼性に何を示唆するか？

主な発見

FT-BERT+Attモデルは97.6％という最高の分類精度を達成し、ベースラインの微調整済みBERTモデルを上回った。
アテンション機構は、Breast Careカテゴリーにおいて「breast」、「carcinoma」、「biopsy」などの臨床的に関連するキーワードを効果的に強調しており、複数のモデル間で強いオーバーラップを示した。
大多数のカテゴリーにおいて、FT-BERT+AttおよびPT-BERT+Att+BiLSTMモデルは1～3つの非常に関連性の高いキーワードを同定したが、OE+Att+BiLSTMモデルは性能が低く、特にBariatrics（精度33％）やPain Managementカテゴリーで顕著だった。
ワンホット埋め込みモデルは、意味的把握が欠如しているため、「old」のような一般的な語を高アテンションキーワードとして誤って特定する傾向にあり、文脈的意味を捉える能力の限界を示した。
BERTベースのモデル間でのキーワードオーバーラップは、ワンホットモデルと比較して顕著に高く、文脈的埋め込みが意味のあるアテンションベースの解釈に不可欠であることを示唆した。
ストップワードフィルタリングとアテンションしきい値の適用後、ワンホットモデルは一部のカテゴリーで10個の関連キーワードを抽出できず、キーワード抽出におけるその不安定性がさらに明確になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。