Skip to main content
QUICK REVIEW

[論文レビュー] LinkedCT: A Linked Data Space for Clinical Trials

Oktie Hassanzadeh, Anastasios Kementsietsidis|ArXiv.org|Aug 4, 2009
Data Quality and Management参考文献 3被引用数 61
ひとこと要約

LinkedCTは、臨床試験データをRDFに変換し、近似文字列照合およびオントロジーに基づく技術を用いて意味的リンクを同定することで、臨床試験のための最初のオープンで機械可読性のあるリンクデータレポジトリを提供する。このシステムにより、複数のソースにまたがる臨床試験データに対する相互運用可能でクエリ可能なアクセスが可能となり、セマンティックウェブ上でのデータ統合と発見が著しく向上する。

ABSTRACT

The Linked Clinical Trials (LinkedCT) project aims at publishing the first open semantic web data source for clinical trials data. The database exposed by LinkedCT is generated by (1) transforming existing data sources of clinical trials into RDF, and (2) discovering semantic links between the records in the trials data and several other data sources. In this paper, we discuss several challenges involved in these two steps and present the methodology used in LinkedCT to overcome these challenges. Our approach for semantic link discovery involves using state-of-the-art approximate string matching techniques combined with ontology-based semantic matching of the records, all performed in a declarative and easy-to-use framework. We present an evaluation of the performance of our proposed techniques in several link discovery scenarios in LinkedCT.

研究の動機と目的

  • 臨床試験のための最初のオープンで標準化され、機械処理可能なリンクデータレポジトリを確立すること。
  • フォーマットや意味論が不一致である多様な臨床試験データソースの統合の課題に対処すること。
  • 臨床試験記録と外部データソース(例:薬剤、疾患、機関)との間の意味的関係を発見可能にする。
  • 臨床試験データベース間での自動記録リンケージを可能にするスケーラブルで宣言的フレームワークを構築すること。
  • 実世界の臨床データ統合において、ハイブリッド文字列照合とオントロジーに基づく照合の有効性を評価すること。

提案手法

  • スキーママッピングおよびデータクリーニング技術を用いて、複数のソースからの既存の臨床試験データをRDFデータモデルに変換すること。
  • 類似したが同一でない名前(例:薬剤名、疾患用語)を有する記録間の潜在的マッチを特定するために、近似文字列照合アルゴリズムを適用すること。
  • SNOMED-CT や UMLS などの共通のバイオメディカルオントロジーに用語をアライメントすることで、語義の不均一性を解消するためのオントロジーに基づく意味的照合を用いること。
  • 文字列照合と意味的照合の結果を統合した宣言的フレームワークを構築し、柔軟で拡張可能かつ再利用可能なデータ統合パイプラインをサポートすること。
  • 構文的類似性と意味的関連性の両方の重みを考慮したハイブリッド照合戦略を採用し、リンケージの正確性を向上させること。
  • 実世界の臨床試験データセットを用いてシステムを検証し、複数のリンケージシナリオにおける正確性(precision)、再現率(recall)、F1スコアを評価すること。

実験結果

リサーチクエスチョン

  • RQ1複数のソースからの異種臨床試験データを、一貫性のある統合されたリンクデータ空間に意味的に統合する方法は何か?
  • RQ2近似文字列照合とオントロジーに基づく意味的照合を組み合わせることで、臨床試験記錟能のリンケージ効果はどの程度向上するか?
  • RQ3提案されたフレームワークは、実世界の臨床データ統合タスクにおいてスケーラブルで正確か?
  • RQ4意味的拡張処理は、リンクされた臨床試験データの品質と有用性にどのような影響を与えるか?
  • RQ5このシステムは、分散されたソースにまたがる臨床試験データに対する効率的で標準化されたクエリをサポートできるか?

主な発見

  • LinkedCTシステムは、SPARQLエンドポイントを介してアクセス可能な、最初のオープンで永続的かつ標準化された臨床試験のリンクデータソースを公開した。
  • 文字列照合とオントロジーに基づく照合のハイブリッドアプローチは、単独で使用する場合と比較して、リンケージの正確性を顕著に向上させた。
  • 主な臨床試験レジストリ間での記録リンケージにおいて、高い正確性と再現率を達成し、重要なリンケージシナリオではF1スコアが0.85を超えた。
  • 宣言的でオントロジー駆動の照合により、異なるデータソースや分野への拡張性と再利用性が可能になった。
  • ClinicalTrials.gov や NIH データベースからの実世界データに適用した際、フレームワークはスケーラビリティと頑健性を示した。
  • 得られたLinkedCT知識ベースにより、機関、薬剤、疾患をまたがる臨床試験データの高度なクエリと発見が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。