[論文レビュー] Multi-Label Classification of Patient Notes a Case Study on ICD Code Assignment
本論文は退院要約からの大規模多ラベル ICD コード割り当てにおいて SVM、CBOW、CNN、HA-GRU を比較し、階層的注意機構を備えた HA-GRU を導入して最先端の結果と透明な意思決定を実現する。
In the context of the Electronic Health Record, automated diagnosis coding of patient notes is a useful task, but a challenging one due to the large number of codes and the length of patient notes. We investigate four models for assigning multiple ICD codes to discharge summaries taken from both MIMIC II and III. We present Hierarchical Attention-GRU (HA-GRU), a hierarchical approach to tag a document by identifying the sentences relevant for each label. HA-GRU achieves state-of-the art results. Furthermore, the learned sentence-level attention layer highlights the model decision process, allows easier error analysis, and suggests future directions for improvement.
研究の動機と目的
- 長い退院要約から非常に大規模なラベル集合を伴う自動ICDコーディングの課題に取り組む。
- MIMIC IIおよびIIIデータセットで複数のモデル(SVM、CBOW、CNN、HA-GRU)を評価する。
- 階層的セグメンテーションと注意機構が性能を向上させ、解釈性を可能にする方法を示す。
- 実世界の臨床テキストに対するモデル性能を改善する前処理手順を示す。
提案手法
- 4つのモデルを比較する:tf-idf特徴量を用いたワン対全SVM; 単語の平均化によるCBOWニューラルモデル; 1次元畳み込みと最大プーリングを用いるCNN; 階層的双方向GRUとラベル固有の注意機構を持つHA-GRU。
- spaCyベースのトークン化、非英字文字を疑似トークンへマッピング、編集距離に基づく語彙正規化を用いて前処理を行う。
- 長文モデル化を可能にするため、文レベルで階層的に文書をセグメーションする。
- HA-GRUの文書レベルでラベル固有の注意機構を適用し、各 ICD コードに関連する文を特定する。
- MIMIC IIとMIMIC IIIでモデルを訓練し、評価はMicro-F1を用いて2つの設定(完全な ICD-9 コードと3桁コードにまとめた設定)で行う。
実験結果
リサーチクエスチョン
- RQ1ベースラインモデル(SVM、CBOW、CNN)は、完全な ICD-9 コード集合と3桁コードにまとめた設定のHA-GRUと比べてどのような性能を示すか?
- RQ2階層的セグメンテーションと注意機構は、長い臨床ノートに対する多ラベル ICD コーディングを改善するか?
- RQ3トレーニングデータセットの規模(MIMIC II 対 MIMIC III)がモデル性能に与える影響は?
- RQ4トークン化と前処理は、テキストベースの ICD コーディングの性能にどのように影響するか?
- RQ5モデルは予測に対する解釈可能な説明(注意の可視化)を提供できるか?
主な発見
| Model | MIMIC II ICD9 | MIMIC III ICD9 | MIMIC II Rolled-up | MIMIC III Rolled-up |
|---|---|---|---|---|
| SVM | 28.13% | 22.25% | 32.50% | 53.02% |
| CBOW | 30.60% | 30.02% | 42.06% | 43.30% |
| CNN | 33.25% | 40.72% | 46.40% | 52.64% |
| HA-GRU | 36.60% | 40.52% | 53.86% | 55.86% |
- HA-GRU はロールアップ ICD9 コードで最良の結果を示し、MIMIC IIおよびIIIでCNNおよびSVMベースラインより顕著に改善する。
- ロールアップ設定では、HA-GRUは MIMIC III で 55.86% Micro-F1 を達成し、最良のベースラインを約2.8ポイント上回る。
- 完全な ICD-9 設定では、MIMIC III で訓練されたときCNNがベースラインの中で最も強く、HA-GRUをわずかに上回る。
- ノイズを減らすトークン化と簡単な前処理(編集距離マッピング)は、CBOWおよびCNNの性能を約0.5%向上させた。
- HA-GRU は文レベルおよび語レベルの解釈可能な注意機構を提供し、意思決定プロセスを可視化してエラー分析を支援する(将来の研究のための談話レベルの検討を含む)。
- より大きなMIMIC IIIデータセットで訓練すると性能が一般に向上し、極端な多ラベル ICD コーディングにおけるデータ規模の利点を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。