Skip to main content
QUICK REVIEW

[論文レビュー] Numerical Atrribute Extraction from Clinical Texts

P R Sarath, Sunil Mandhan|arXiv (Cornell University)|Jan 1, 2015
Natural Language Processing Techniques参考文献 1被引用数 3
ひとこと要約

本論文は、CRFベースの名前付きエンティティ認識(NER)とSVMベースの関係抽出を用いて、臨床的退院要約から数値的属性と値を抽出する二段階のシステムを提示する。このアプローチは、属性-値抽出で95%のFスコアを達成し、NERと関係抽出を統合した際には87%のFスコアを記録し、医療分野の自然言語処理におけるトークン化とクラスバランスの重要性を示している。

ABSTRACT

This paper describes about information extraction system, which is an extension of the system developed by team Hitachi for "Disease/Disorder Template filling" task organized by ShARe/CLEF eHealth Evolution Lab 2014. In this extension module we focus on extraction of numerical attributes and values from discharge summary records and associating correct relation between attributes and values. We solve the problem in two steps. First step is extraction of numerical attributes and values, which is developed as a Named Entity Recognition (NER) model using Stanford NLP libraries. Second step is correctly associating the attributes to values, which is developed as a relation extraction module in Apache cTAKES framework. We integrated Stanford NER model as cTAKES pipeline component and used in relation extraction module. Conditional Random Field (CRF) algorithm is used for NER and Support Vector Machines (SVM) for relation extraction. For attribute value relation extraction, we observe 95% accuracy using NER alone and combined accuracy of 87% with NER and SVM.

研究の動機と目的

  • 未構造化の退院要約から数値的臨床属性(例:血圧、ブドウ糖)とその関連値を抽出する課題に対処すること。
  • 臨床的数値情報を構造化することで、非専門家ユーザーがEHRデータをより容易にアクセス可能かつ解釈可能にする。
  • 正確な属性-値ペアリングを実現するため、NERと関係抽出を組み合わせた堅牢なパイプラインを開発すること。
  • 特徴工学とデータ分布が臨床NLPタスクのモデル性能に与える影響を調査すること。

提案手法

  • Stanford NLPライブラリを用いて手動でアノテートされた退院要約で訓練されたCRFベースのNERモデルを用い、数値的属性と値を同定する。
  • ハイフン付き語(例:'WBC-12.8')の問題的なトークン化を修正するため、正規表現を用いた前処理。
  • Apache cTAKESフレームワーク内でのパイプラインコンponentとしてStanford NERモデルを統合し、エンドツーエンド処理を実現。
  • 句構造と文脈的特徴を用いて、抽出された属性とその対応する値を結びつけるSVMベースの関係抽出モジュールを採用。
  • 品詞タグ、フレーズのチャンク化、属性の有無、属性-値ペア間のトークン距離を含む特徴工学。
  • 評価には、CLEF eHealth 2014データの100件の訓練データ/36件のテストデータに分割し、評価は厳密な文字列マッチングを採用。

実験結果

リサーチクエスチョン

  • RQ1CRFベースのNERモデルは、臨床的退院要約から数値的属性と値を抽出する際にどの程度有効であるか?
  • RQ2品詞、距離、属性の有無といった特定の特徴が、関係抽出の精度にどのような影響を与えるか?
  • RQ3訓練データにおける著しいクラス不均衡(圧倒的にネガティブサンプルが多い)は、臨床テキストにおけるSVMベースの関係抽出の性能にどのような影響を与えるか?
  • RQ4NERと関係抽出を統合することで、NER単体に比べて全体の属性-値ペアリング精度が向上するか?
  • RQ5特にトークン化の補正を含む前処理が、下流のNLPコンponentの性能にどの程度影響を与えるか?

主な発見

  • CRFベースのNERモデルは、属性と値の抽出で95%のFスコアを達成し、高い正確性と再現率を示した。
  • NERとSVMベースの関係抽出を統合したシステムは、Fスコア87%を達成し、関係モデリングがNER単体に比べてペアリング精度を向上させることを示した。
  • 適切でないトークン化、特に'WBC-12.8'のようなハイフン付き語では、正規表現による前処理が行われない限り、性能が著しく低下した。
  • 訓練データに著しいクラス不均衡(ネガティブサンプルが圧倒的に多い)が存在したため、SVMは初期段階ですべてのテストインスタンスをネガティブと誤分類した。
  • 訓練データの再バランスを施した後、SVMモデルの性能が著しく向上し、監視学習におけるデータ分布の重要性が浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。