Skip to main content
QUICK REVIEW

[論文レビュー] A Comparison of Word Embeddings for the Biomedical Natural Language Processing

Yanshan Wang, Sijia Liu|arXiv (Cornell University)|Feb 1, 2018
Text Readability and Simplification被引用数 28
ひとこと要約

本研究では、電子歴史記録(EHR)、バイオメディカル文献(MedLit)、Wikipedia、ニュースの4つの異なるコーパスで学習された単語埋め込みを、バイオメディカル自然言語処理の分野で評価している。臨床情報抽出、バイオメディカルリトリーブ、関係抽出のタスクにおいて、内在的および外在的評価を実施した結果、EHRおよびMedLitで学習された埋め込みが一般ドメインの埋め込み(GloVe や Google News)よりも臨床的文脈で医療的意味をよりよく捉えており、優れた性能を示したが、すべてのタスクで一貫して優れた結果を示す埋め込みは存在しなかった。

ABSTRACT

Word embeddings have been widely used in biomedical Natural Language Processing (NLP) applications as they provide vector representations of words capturing the semantic properties of words and the linguistic relationship between words. Many biomedical applications use different textual resources (e.g., Wikipedia and biomedical articles) to train word embeddings and apply these word embeddings to downstream biomedical applications. However, there has been little work on evaluating the word embeddings trained from these resources.In this study, we provide an empirical evaluation of word embeddings trained from four different resources, namely clinical notes, biomedical publications, Wikipedia, and news. We performed the evaluation qualitatively and quantitatively. For the qualitative evaluation, we manually inspected five most similar medical words to a given set of target medical words, and then analyzed word embeddings through the visualization of those word embeddings. For the quantitative evaluation, we conducted both intrinsic and extrinsic evaluation. Based on the evaluation results, we can draw the following conclusions. First, the word embeddings trained on clinical notes and biomedical publications can capture the semantics of medical terms better, and find more relevant similar medical terms, and are closer to human experts' judgments, compared to these trained on Wikipedia and news. Second, there does not exist a consistent global ranking of word embedding quality for downstream biomedical NLP applications. However, adding word embeddings as extra features will improve results on most downstream tasks. Finally, the word embeddings trained on biomedical domain corpora do not necessarily have better performance than those trained on other general domain corpora for any downstream biomedical NLP tasks.

研究の動機と目的

  • 多様なコーパス(EHR、バイオメディカル文献、Wikipedia、ニュース)で学習された単語埋め込みのバイオメディカルNLPアプリケーションへの性能を評価すること。
  • 一般ドメインのソース(Wikipedia やニュースなど)と比較して、ドメイン特化型のバイオメディカルコーパスで学習された埋め込みが、優れた性能を示すかどうかを特定すること。
  • 情報抽出、情報検索、関係抽出などの下流タスクにおける単語埋め込みの特徴量としての影響を評価すること。
  • 地域の病院特有のEHRデータから学習された埋め込みが、公開の事前学習済み埋め込みよりも、臨床的NLPタスクで優れた性能を示すかどうかを調査すること。
  • 単語埋め込みの一般化可能性および異なるバイオメディカルNLPアプリケーションおよび病院間での移植可能性を検討すること。

提案手法

  • スキップグラム法とネガティブサンプリングを用いて、メイオクリニックの非構造化EHRデータおよびPubMed Central(MedLit)の記事から単語埋め込みを学習した。
  • GloVe や Google News から入手可能な公開の事前学習済み埋め込みをベースライン比較として使用した。
  • 定性的評価として、選択された医療用語(疾患、症状、薬剤)の周辺で最も類似度の高い5語を手動で検査し、2D空間に377の医療用語を可視化した。
  • 4つのベンチマークデータセット(Pedersen、Hliaoutakis、MayoSRS、UMNSRS)を用いた内在的評価により、医療用語間の意味的類似度を測定した。
  • 3つの下流タスクにおける外在的評価を実施した:臨床情報抽出(BioCreative V IEチャレンジ)、バイオメディカル情報検索(BioASQチャレンジ)、関係抽出(BioCreative V REチャレンジ)。
  • 機械学習モデルに埋め込みを追加の特徴量として使用し、各タスクのF1スコアを報告して、異なるコーパスから得た埋め込みの性能を比較した。

実験結果

リサーチクエスチョン

  • RQ1臨床ノート(EHR)およびバイオメディカル文献(MedLit)で学習された単語埋め込みは、Wikipedia やニュースなどの一般ドメインコーパスで学習されたものよりも、医療的意味をより正確に捉えているか?
  • RQ2異なる下流バイオメディカルNLPタスクにおいて、単語埋め込みの順位が一貫しているか、それともタスクによって性能が異なるか?
  • RQ3非医療的で一般ドメインのコーパス(例:ニュース、Wikipedia)から学習された埋め込みは、医療特化型のコーパスから学習されたものと同等またはそれ以上の性能を示すか?
  • RQ4病院特有のEHRデータから学習された埋め込みは、公開の事前学習済み埋め込みと比較して、局所的な臨床的NLPタスクでどの程度性能を向上させるか?
  • RQ5単語埋め込みを追加の特徴量として追加することは、多様なバイオメディカルNLPアプリケーションにおいて一貫して性能を向上させるか?

主な発見

  • EHRで学習された単語埋め込みは、臨床情報抽出タスクでF1スコア0.900を達成し、他のすべての埋め込みよりも優れた性能を示した。
  • MedLitで学習された埋め込みも、医療的意味を捉える点で強く、IEタスクでF1スコア0.889、REタスクで0.788を記録した。
  • 内在的評価では、EHRで学習された埋め込みが、Pedersen、Hliaoutakis、MayoSRS、UMNSRSの4つのデータセットすべてで、医療専門家による判断に最も近い意味的類似度スコアを示した。
  • バイオメディカル情報検索タスクでは、どの単語埋め込みもベースラインを上回る性能を示さなかったため、この特定の設定では単語埋め込みの恩恵が限定的であった。
  • Google News埋め込みは、関係抽出タスクでF1スコア0.790を記録し、EHRおよびMedLit埋め込みを上回った。
  • コーパスのドメインに差はあったが、一般ドメインのソース(GloVeおよびGoogle News)から得た埋め込みは、特定のタスクでは医療特化型のコーパスから得たものと同等またはそれ以上の性能を示した。これは、ドメイン特化型埋め込みが一貫して優れているとは限らないことを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。