[論文レビュー] Comprehensive Named Entity Recognition on CORD-19 with Distant or Weak Supervision
CORD-NER は distantly and weakly supervised methods を用いて CORD-19 コーパスの包括的な 75-type NER dataset を作成し、主要なバイオメディカルタイプで SciSpacy を上回り、新しい文書とエンティティタイプを段階的に追加できるようにします。
We created this CORD-NER dataset with comprehensive named entity recognition (NER) on the COVID-19 Open Research Dataset Challenge (CORD-19) corpus (2020-03-13). This CORD-NER dataset covers 75 fine-grained entity types: In addition to the common biomedical entity types (e.g., genes, chemicals and diseases), it covers many new entity types related explicitly to the COVID-19 studies (e.g., coronaviruses, viral proteins, evolution, materials, substrates and immune responses), which may benefit research on COVID-19 related virus, spreading mechanisms, and potential vaccines. CORD-NER annotation is a combination of four sources with different NER methods. The quality of CORD-NER annotation surpasses SciSpacy (over 10% higher on the F1 score based on a sample set of documents), a fully supervised BioNER tool. Moreover, CORD-NER supports incrementally adding new documents as well as adding new entity types when needed by adding dozens of seeds as the input examples. We will constantly update CORD-NER based on the incremental updates of the CORD-19 corpus and the improvement of our system.
研究の動機と目的
- COVID-19 関連コンテンツのための迅速に適応可能な NER のニーズに対処するため、広範な手動アノテーションを必要とせずに。
- CORD-19 コーパス用の包括的な 75-type NER スキーマを作成し、COVID-19 固有タイプを含める。
- 複数の NER ソースと監視信号を組み合わせてアノテーション品質を最大化する。
- 新しいドキュメントと新しいエンティティタイプを種(seed)ベースの指針で段階的に追加できるようにする。
提案手法
- CORD-NER コーパスを 29,500 件の CORD-19 ドキュメントから metadata と full text を統合し、AutoPhrase でトークン化し、その後 Spacy を適用して作成。
- 4 つの NER ソースを融合する: (i) Spacy からの事前学習済み一般 NER、 (ii) SciSpacy からの事前学習済みバイオメディカル NER、 (iii) KB 指向の distantly supervised NER を UMLS を知識ベースとして使用、 (iv) seed 指向の weakly supervised NER を COVID-19 固有タイプのシード拡張で。
- 4 つのソースからエンティティタイプを統一された 75-item CORD-NER 階層に align・整理(SciSpacy タイプを UMLS にマッピングし、コーパス関連性を絞る)。
- 4 手法で全 75 タイプの NER アノテーションを実施し、次に方法ベースのアノテーション品質を優先して結果を統合(衝突解決)。
- メタデータ、コーパス、NER 結果を含む統合出力(CORD-NER.json および CORD-NER-full.json)を作成し、コーパスとタイプのインクリメンタル更新をサポート。
実験結果
リサーチクエスチョン
- RQ1提案された CORD-NER システムは、広範なバイオメディカルエンティティタイプ(遺伝子、化学物質、疾患)に対して、既存の NER ツールと比較してどの程度性能を発揮するか?
- RQ2distantly supervised および seed-guided weak supervision は、最小限の人間ラベリングで COVID-19–特有のエンティティタイプを効果的に認識できるか?
- RQ3AutoPhrase-preserved フレーズ構造を組み込むことは、CORD-19 に対する distant/weak supervision NER の性能を改善するか?
- RQ4新しい文書と新しいエンティティタイプを限定的なシード例で追加することで、システムはインクリメンタルな更新を実現できるか?
- RQ5下流の COVID-19 テキストマイニングタスクに対して、CORD-NER はどのような定性的な利点を提供するか?
主な発見
- CORD-NER は化学および疾患エンティティタイプにおいて SciSpacy を著しく上回る F1 スコアを達成(彼らの評価サンプルで 10% 以上)
- システムはCOVID-19–特有の概念(例:コロナウイルス、ウイルス蛋白、免疫応答)を標準的なバイオメディカルタイプを超えて認識可能にする
- このアプローチは人間がアノテーションしたトレーニングデータを必要とせず、distantly supervised および seed-guided weak supervision で NER モデルを動作させられる
- CAND-NER は、報告された比較において対象タイプの recall/precision のトレードオフで一部の完全監視ベースのベースラインよりも高い
- フレームワークは dozens of seed 例を提供することで、文書と新しいエンティティタイプのインクリメンタル追加をサポートする
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。