Skip to main content
QUICK REVIEW

[论文解读] Knowledge-guided Text Structuring in Clinical Trials.

Yingcheng Sun, Kenneth A. Loparo|arXiv (Cornell University)|Jan 1, 2019
Biomedical Text Mining and Ontologies被引用 6
一句话总结

本文提出了一种知识引导的文本结构化框架,通过使用自动生成的知识库和词语依赖关系,将复杂的临床试验自由文本(如纳入标准和结果摘要)转化为正式的、计算机可解析的表示形式。该方法实现了高精确率和高召回率,证明其在解析多实体、多关系的临床文本方面具有有效性,可提升电子患者筛查和查询构建的性能。

ABSTRACT

Clinical trial records are variable resources or the analysis of patients and diseases. Information extraction from free text such as eligibility criteria and summary of results and conclusions in clinical trials would better support computer-based eligibility query formulation and electronic patient screening. Previous research has focused on extracting information from eligibility criteria, with usually a single pair of medical entity and attribute, but seldom considering other kinds of free text with multiple entities, attributes and relations that are more complex for parsing. In this paper, we propose a knowledge-guided text structuring framework with an automatically generated knowledge base as training corpus and word dependency relations as context information to transfer free text into formal, computer-interpretable representations. Experimental results show that our method can achieve overall high precision and recall, demonstrating the effectiveness and efficiency of the proposed method.

研究动机与目标

  • 解决从复杂临床试验自由文本中提取结构化、计算机可解析信息的挑战,超越简单的实体-属性对。
  • 通过在临床试验摘要和标准中建模多个实体、属性和关系,改进电子患者筛查和纳入查询的构建。
  • 开发一种可扩展的方法,利用自动生成的知识库作为训练数据,减少对人工标注语料库的依赖。
  • 通过将词语依赖关系作为上下文特征引入,提升对富含关系内容的自由文本的解析准确性。
  • 评估该方法在处理现实世界临床试验文档复杂性方面的有效性。

提出的方法

  • 该框架使用自动生成的知识库作为训练语料,支持端到端的文本结构化,无需人工标注。
  • 从临床试验文本中提取词语依赖关系,作为上下文信息,丰富实体及其关系的表示。
  • 该方法将非结构化的自由文本转化为正式的、结构化的表示形式,以捕捉多个实体、属性和语义关系。
  • 采用知识引导方法将文本与已知的医学概念和关系对齐,提升解析的一致性和可解释性。
  • 该框架整合依存句法分析,以建模词语之间的句法和语义依赖关系,增强对关系的理解。
  • 系统使用临床试验记录进行训练和评估,重点关注纳入标准和结果摘要。

实验结果

研究问题

  • RQ1知识引导的框架能否有效结构化包含多个实体和关系的复杂临床试验文本?
  • RQ2使用自动生成的知识库在临床试验文本结构化中的性能影响如何?
  • RQ3词语依赖关系在多大程度上提升了临床自由文本解析的准确性?
  • RQ4该方法是否在将非结构化临床文本转化为正式、机器可解析表示方面实现了高精确率和高召回率?

主要发现

  • 所提出的方法在将临床试验自由文本转化为结构化、计算机可解析格式方面实现了高精确率和高召回率。
  • 整合词语依赖关系显著提升了对临床文本中复杂关系的建模能力。
  • 使用自动生成的知识库可实现有效训练,且无需依赖人工标注的数据集。
  • 该框架成功处理了临床试验摘要和纳入标准中的多实体、多关系内容。
  • 该方法在多种临床文本类型中表现出色,支持电子患者筛查等下游应用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。