Skip to main content
QUICK REVIEW

[논문 리뷰] A Review of Challenges and Opportunities in Machine Learning for Health

Marzyeh Ghassemi, Tristan Naumann|PubMed|2018. 06. 01.
Machine Learning in Healthcare참고 문헌 123인용 수 253
한 줄 요약

본 논문은 건강 데이터(특히 EHRs)에 기계학습을 적용하는 데 고유한 도전과제를 조사하고 기회들을 제시하며, 인과성, 누락 데이터, 결과 정의, 비정상성에 중점을 두고 임상의–ML 협업을 촉구한다.

ABSTRACT

Modern electronic health records (EHRs) provide data to answer clinically meaningful questions. The growing data in EHRs makes healthcare ripe for the use of machine learning. However, learning in a clinical setting presents unique challenges that complicate the use of common machine learning methodologies. For example, diseases in EHRs are poorly labeled, conditions can encompass multiple underlying endotypes, and healthy individuals are underrepresented. This article serves as a primer to illuminate these challenges and highlights opportunities for members of the machine learning community to contribute to healthcare.

연구 동기 및 목표

  • 헬스케어에서의 ML이 직면하는 고유한 기술적 도전(인과성, 결측, 결과)에 주목하고 이것이 모델링 선택에 어떻게 영향을 미치는지 설명한다.
  • ML이 작업을 자동화하고, 임상의들을 지원하며, 임상 역량을 확장할 수 있는 헬스케어 기회의 계층 구조를 제시한다.
  • 임상적으로 유용하고 운영적으로 실행 가능한 모델을 개발하기 위해 ML 연구자와 임상의 간의 협업을 촉진한다.
  • 데이터 시프트, 해석가능성, 헬스케어에서의 표현 학습(representation learning)과 같은 연구 방향을 논의한다.

제안 방법

  • 헬스케어에서 개입 기반 질문에 답하기 위한 핵심 요건으로서 인과성에 대해 논의한다.
  • MCAR, MAR, MNAR와 같은 누락 데이터 메커니즘과 그것들이 모델 설계 및 평가에 미치는 함의를 설명한다.
  • EHR 기반 학습에서 신뢰할 수 있는 결과 구성과 레이블 누수(label leakage)의 위험을 개략적으로 제시한다.
  • ML 방법을 작업 자동화, 의사결정 지원, 역량 확장에 매핑하고 헬스케어 기회의 계층 구조를 제안한다.
  • 다양한 소스의 헬스케어 데이터에 대한 강건하고 해석 가능하며 협업적인 ML 시스템과 표현 학습(representational learning)을 옹호한다.

실험 결과

연구 질문

  • RQ1헬스케어 데이터에 ML을 적용할 때 고유하게 남는 핵심 도전과제가 무엇이며 이것이 모델의 타당성과 활용도에 어떻게 영향을 미치는가?
  • RQ2이종적인 EHR 데이터로 ML 작업을 설계할 때 결과를 어떻게 정의하고 레이블링해야 하는가?
  • RQ3헬스케어 데이터셋에 내재된 누락 데이터와 편향을 ML 모델이 어떻게 반영하고 보정할 수 있는가?
  • RQ4해석가능성과 임상의 협업을 포함하여 임상 현장에서 ML을 배치하는 데 있는 기회와 요구사항은 무엇인가?
  • RQ5데이터 비정상성(non-stationarity)과 헬스케어 ML의 표현에 대응하는 연구 방향은 무엇인가?

주요 결과

  • 인과성은 개입 기반 질문에 답하는 데 필수적이며 관찰적 헬스케어 데이터를 사용할 때 도전을 제기한다.
  • 누락 데이터 메커니즘(MCAR, MAR, MNAR)은 편향된 예측과 오해를 피하기 위해 모델링하고 인지되어야 한다.
  • 헬스케어의 결과는 의미 있는 예측을 보장하기 위해 신중한 정의와 맥락 인식, 레이블 누수 방지가 필요하다.
  • 광범위한 3계층 기회 구조가 있으며: 작업 자동화, 임상 의사결정 지원, 임상 역량 확장으로 각 계층은 고유한 평가 필요가 있다.
  • 모델의 해석 가능성과 타당성, 그리고 다중 소스 데이터에 대한 강건한 표현(representations)이 임상 채택과 신뢰에 중요하다.
  • 임상 협업은 영향력이 큰 문제를 식별하고 ML 솔루션의 운영 가능성을 보장하는 데 필수적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.