QUICK REVIEW

[논문 리뷰] Deriving information from missing data: implications for mood prediction

Yue Wu, Terry Lyons|arXiv (Cornell University)|2020. 06. 26.

Mental Health Research Topics참고 문헌 18인용 수 28

한 줄 요약

이 논문은 양극성 장애(BD), 경계성 인격장애(BPD), 건강 대조군(HC)에서 진단 및 기분 예측을 향상시키기 위해 종단적 기분 데이터 분석에 누락 응답을 통합하는 서명 기반 기계학습 방법을 제안한다. 누락 응답을 날카운드 경로 프레임워크 내의 정보적 사건으로 간주함으로써, 이 방법은 66%의 진단 정확도를 달성하고, 특히 BPD 분류 및 기분 상태 예측에서 누락 데이터를 배제하는 단순 모델보다 뚜렷이 뛰어난 성능을 보인다.

ABSTRACT

The availability of mobile technologies has enabled the efficient collection prospective longitudinal, ecologically valid self-reported mood data from psychiatric patients. These data streams have potential for improving the efficiency and accuracy of psychiatric diagnosis as well predicting future mood states enabling earlier intervention. However, missing responses are common in such datasets and there is little consensus as to how this should be dealt with in practice. A signature-based method was used to capture different elements of self-reported mood alongside missing data to both classify diagnostic group and predict future mood in patients with bipolar disorder, borderline personality disorder and healthy controls. The missing-response-incorporated signature-based method achieves roughly 66\% correct diagnosis, with f1 scores for three different clinic groups 59\% (bipolar disorder), 75\% (healthy control) and 61\% (borderline personality disorder) respectively. This was significantly more efficient than the naive model which excluded missing data. Accuracies of predicting subsequent mood states and scores were also improved by inclusion of missing responses. The signature method provided an effective approach to the analysis of prospectively collected mood data where missing data was common and should be considered as an approach in other similar datasets.

연구 동기 및 목표

정신건강 환자에서 획득한 종단적 자가 보고 기분 데이터셋에서 비랜덤한 누락 데이터 문제를 다루기 위해.
누락 응답을 정보적 특징으로 통합함으로써 진단 분류 및 향후 기분 예측 성능 향상 여부를 평가하기 위해.
응답과 누락 데이터 간의 시간적 동적 변화 및 상호작용을 포착하는 서명 기반 방법을 개발하고 테스트하기 위해.
누락 데이터를 통합한 모델의 성능을 누락 데이터를 배제하는 표준 접근 방식과 비교하기 위해.
ASRM 및 QIDS 자가 보고 데이터를 사용하여 BD, BPD, HC 간의 구별 가능성을 평가하기 위해.

제안 방법

누락 응답을 -1로 인코딩한 2차원 연결된 기분 데이터(ASRM 및 QIDS 점수)에 대해 날카운드 경로 이론의 서명 방법을 적용한다.
누락 응답을 수량 프로세스의 사건으로 간주하여 시간 순서를 유지하고, 서명이 응답과 결측치를 포함한 패턴을 포착할 수 있도록 한다.
시간에 따른 기분과 결측의 동적 변화를 기록하기 위해 2단계 서명 특징 추출을 사용한다.
분류, 상태 예측, 점수 예측 작업을 위해 랜덤 포레스트 분류기 및 회귀기 모델을 기본 모델로 사용한다.
누락 데이터 포인트를 분석에서 완전히 제거하는 단순 기준 모델과 방법을 비교한다.
최소 20주 이상 매주 기분 평가를 실시한 126명의 참가자를 대상으로 AMoSS 연구에서 방법을 검증한다.

실험 결과

연구 질문

RQ1종단적 기분 데이터에서의 누락 응답은 기각당하는 것이 아니라 정보적 특징으로 활용될 수 있는가?
RQ2서명 기반 특징에 누락 데이터를 통합함으로써 BD, BPD, HC의 진단 분류 정확도가 향상되는가?
RQ3누락 데이터를 포함하는지 여부에 따라 기분 상태 및 점수 예측 성능는 어떻게 비교되는가?
RQ4서명 방법은 BPD 환자와 BD 환자 간의 기분 불안정 패턴의 차이를 효과적으로 포착할 수 있는가?
RQ5비랜덤한 누락 데이터가 존재하는 상황에서, 서명 기반 모델은 표준 보간 또는 배제 기반 접근 방식보다 더 강건한가?

주요 결과

누락 응답을 통합한 서명 기반 모델은 총 66%의 진단 정확도를 달성하였으며, 누락 데이터를 배제하는 단순 모델보다 유의미하게 뛰어난 성능을 보였다.
F1 점수는 BD의 경우 59%, HC의 경우 75%, BPD의 경우 61%였으며, BPD 분류는 단순 모델에서 0.5 이하에서 신규 방법을 통해 0.6 이상으로 향상되었다.
BPD 환자를 BD 환자로 잘못 분류하는 비율은 약 40%에서 3분의 1 미만으로 감소하여, BPD 특유의 기분 불안정성을 더 잘 반영한 것으로 나타났다.
누락 응답을 포함한 경우, 모든 그룹에서 기분 상태 예측 정확도가 향상되었으며, 특히 QIDS 및 ASRM 상태 예측에서 두드러진 개선이 관찰되었다.
미래의 ASRM 및 QIDS 점수 예측 성능도 서명 특징에 누락 데이터를 통합함으로써 향상되었다.
비랜덤한 누락 데이터를 다루는 데 있어 이 방법이 강건함을 입증하여, 누락 데이터가 기저의 기분 동적 변화에 대한 의미 있는 정보를 담고 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.