Skip to main content
QUICK REVIEW

[논문 리뷰] A Simple Text Mining Approach for Ranking Pairwise Associations in Biomedical Applications

Finn Kuusisto, John Steill|PubMed|2019. 06. 12.
Biomedical Text Mining and Ontologies참고 문헌 22인용 수 31
한 줄 요약

이 논문은 KinderMiner를 소개한다. KinderMiner는 문서 공출현 수를 기반으로 키워드 매칭과 피셔의 정확 검정을 사용하여 목표 용어(예: 전사 인자 또는 약물)와 핵심 어휘(예: 'embryonic stem cell' 또는 'hypoglycemia') 간의 쌍별 연관성을 순위 매기는 단순한 텍스트 마이닝 방법이다. 이 방법은 최소한의 데이터 및 자연어 처리(NLP) 요구 사항에도 불구하고 핵심 재프로그래밍 인자와 재사용 가능한 약물의 식별에서 뛰어난 성능을 보이며, 기대를 초월한다.

ABSTRACT

We present a simple text mining method that is easy to implement, requires minimal data collection and preparation, and is easy to use for proposing ranked associations between a list of target terms and a key phrase. We call this method KinderMiner, and apply it to two biomedical applications. The first application is to identify relevant transcription factors for cell reprogramming, and the second is to identify potential drugs for investigation in drug repositioning. We compare the results from our algorithm to existing data and state-of-the-art algorithms, demonstrating compelling results for both application areas. While we apply the algorithm here for biomedical applications, we argue that the method is generalizable to any available corpus of sufficient size.

연구 동기 및 목표

  • 생물의학 연구에서 막대한 조합적 탐색 공간을 우선순위 정렬하는 데 도전하는 데에 기여하기 위해, 예를 들어 세포 재프로그래밍을 위한 핵심 전사 인자를 식별하거나 새로운 적응증을 위한 재사용 가능한 약물을 찾는 것과 같은 과제를 해결한다.
  • 최소한의 데이터 준비와 복잡한 NLP가 필요 없지만 높은 품질의 관련 연관성 우선순위를 제공하는 단순하고 경량의 텍스트 마이닝 방법을 개발한다.
  • 기본적인 공출현 및 통계적 유의성 접근 방식이 전문화된 생물의학적 탐색 과제에서 최첨단 성능을 따라하거나 도달할 수 있는지 평가한다.
  • 대규모 공개 텍스트 코퍼스를 활용하여 이 방법이 생물의학 외부 영역으로도 일반화 가능한지 보여준다.

제안 방법

  • KinderMiner는 검색 가능하고 인덱싱된 텍스트 코퍼스(예: PubMed 또는 Europe PMC)를 사용하여 목표 용어, 핵심 어휘, 그리고 그들의 공출현 빈도를 세는 방식이다.
  • 각 목표 용어에 대해, 문서 수를 기반으로 2x2의 교차표를 구성한다: 용어와 핵심 어휘가 모두 포함된 문서, 용어만 포함된 문서, 핵심 어휘만 포함된 문서, 둘 다 포함되지 않은 문서.
  • 공출현의 통계적 유의성을 평가하기 위해 단측 피셔의 정확 검정을 적용하며, p-값 임계값을 기준으로 유의미하지 않은 쌍을 필터링한다.
  • 유의미한 용어들은 용어와 핵심 어휘가 모두 포함된 문서 수를 용어가 포함된 총 문서 수로 나눈 비율에 따라 순위를 매긴다.
  • 이 방법은 명칭 인식 또는 복잡한 NLP를 피하기 위해 정확한 키워드 매칭과 문서 수 계산에만 의존하며, 경량 설계가 되어 있다.
  • 이 접근 방식은 웹 API(예: Europe PMC)를 사용하여 구현되어 역사적 평가를 위한 확장 가능한, 날짜 제한이 가해진 쿼리를 가능하게 한다.

실험 결과

연구 질문

  • RQ1공출현과 통계적 유의성에 기반한 단순한 텍스트 마이닝 방법이 세포 재프로그래밍을 위한 핵심 전사 인자를 식별하는 데 기대를 초월하여 성능을 발휘할 수 있는가?
  • RQ2이 방법은 당뇨병 외부 약물에 대한 도메인 특화 학습 데이터 없이도 허혈성 저혈당증과 같은 상태에 대한 알려진 비표준 약물 효과를 어느 정도 식별할 수 있는가?
  • RQ3이 방법은 전문화된 생물의학적 탐색 과제에서 최첨단 알고리즘과 비교해 어떤 수준의 성능을 보이는가?
  • RQ4대규모 인덱싱된 텍스트 코퍼스에만 액세스할 수 있는 조건에서 이 방법은 생물의학 외부 영역으로도 일반화 가능한가?

주요 결과

  • 재프로그래밍 과제에서 KinderMiner는 표준 문헌 출간 이전 2년 간의 문헌을 기반으로 하더라도, 실험적으로 검증된 전사 인자(예: Oct4, Sox2, Klf4)를 상위 20개 결과 내에서 높은 순위로 순위 매겼다.
  • 약물 재지정 과제에서는 저혈당증과 관련된 43개의 관련 약물 후보를 식별했으며, 이 중 당뇨병 외 약물 7개는 혈액 포도당에 영향을 주는 알려진 효과를 보였다. 이는 알려진 약리학적 효과와 강한 겹침을 보였다.
  • 이 방법은 명시적 명칭 인식 또는 고급 NLP 없이도 더 복잡하고 도메인 특화된 알고리즘과 유사한 성능을 달성했다.
  • 상위 순위의 용어들은 알려진 생물학적 및 약리학적 연관성과 강하게 겹치며, 문헌 내 공출현 패턴이 의미 있는 생물학적 관계를 담고 있음을 시사한다.
  • 희귀 용어에 대해서도 이 방법은 잘 작동했지만, 매우 낮은 문서 수(예: 용어에 대해 총 15건 미만)는 신뢰도를 떨어뜨릴 수 있음을 지적했으며, 향후 연구에서 임계값 설정 또는 가짜 카운트가 필요할 것으로 제안했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.