[論文レビュー] COVID-19 Literature Knowledge Graph Construction and Drug Repurposing Report Generation
この論文はCOVID-KGというマルチメディア知識グラフの枠組みを紹介します。COVID-19文献からテキストと画像ベースの生物医科学知識を抽出し、QAを可能にし、エビデンスとサブグラフを伴う薬の再用途報告を生成します。
To combat COVID-19, both clinicians and scientists need to digest vast amounts of relevant biomedical knowledge in scientific literature to understand the disease mechanism and related biological functions. We have developed a novel and comprehensive knowledge discovery framework, COVID-KG to extract fine-grained multimedia knowledge elements (entities and their visual chemical structures, relations, and events) from scientific literature. We then exploit the constructed multimedia knowledge graphs (KGs) for question answering and report generation, using drug repurposing as a case study. Our framework also provides detailed contextual sentences, subfigures, and knowledge subgraphs as evidence.
研究の動機と目的
- 論文と図から構造化されたマルチメディア知識グラフを構築することにより、COVID-19文献における知識のボトルネックと品質問題に対処する。
- 効果的な質問応答とエビデンスに基づく薬剤再利用レポートを実現する。
- 取得結果の根拠として、詳細な文脈文、サブ図、および知識サブグラフを提供する。
- 主要な文献ソースからの段階的な更新をサポートし、知識発見の規模拡大を図る。
提案手法
- 4種類のエンティティ(Gene, Disease, Chemical, Organism)に対する粗粒度情報抽出とMeSH CTDリンク、133のリレーションタイプおよび13のイベントタイプ。
- 75種類のエンティティタイプを用いた細粒度エンティティ抽出(CORD-NER)、遠隔教師ありおよび弱教師あり学習を用いる。
- 図の抽出、サブ図の分割、OCR、クロスメディア grounding による視覚コンテンツをKGエンティティに結び付けるための画像処理。
- Kibanaベースのダッシュボード上で、セマンティックタグクラウドとヒートマップを用いた知識グラフのセマンティック可視化。
- 多段階推論機能を備えた、KGマッチングと分布的意味表現マッチングを組み合わせた知識駆動型QA。
- BioBertベースの表現とEvidenceMinerによる文レベルのエビデンス抽出、メタ記号クエリのためのエビデンス採掘。
- 11個の典型的な質問に答え、各候補薬についてエビデンス、サブグラフ、画像分析を組み立てることで薬剤再利用レポートを生成。
実験結果
リサーチクエスチョン
- RQ1COVID-19文献をテキストと画像コンテンツを統合してマルチメディア知識グラフを構築するにはどうすればよいか。
- RQ2構築されたKGは正確でエビデンスに基づく質問応答と薬剤再利用レポートを支援できるか。
- RQ3粗粒度および細粒度のエンティティ抽出とクロスメディア groundingは、総合的な知識グラフの構築にどの程度有効か。
- RQ4文献の成長に対してシステムはどの程度スケールし、薬剤再利用の実用的な洞察を提供できるか。
主な発見
- 2020年6月14日現在、著者らは140K件の論文を収集し、7,230の疾病、9,123の化学物質、50,864の遺伝子を含むKGを構築し、1,725,518件のChemical–Geneリンク、5,556,670件のChemical–Diseaseリンク、77,844,574件のGene–Diseaseリンクを含む。
- 粗粒度IEは、専門家による注釈付き186文書でノード抽出に83.6%のF値、リンク抽出に78.1%のF値を達成。
- CORD-NERは最大93.95%のF値で75の細粒度エンティティタイプを提供し、サンプルセットでSciSpacyを上回る。
- 視覚的IEサブシステムは約50万件近いサブ図を分割し、視覚コンテンツをKGエンティティに結び付け、跨モダル知識を豊かにする。
- QAシステムはマルチホップクエリをサポートし、重要なパスをサブグラフとして提示し、エビデンス文と出典を提供する。
- 複数の薬剤(例:Benazepril、Losartan、Amodiaquine)に対する薬剤再利用レポートがエビデンスと知識サブグラフとともに生成され、専門家のレビュー後、有益で妥当な出力があると著者らは報告している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。