QUICK REVIEW

[논문 리뷰] On the consistency of supervised learning with missing values

Julie Josse, Chen, Jacob M.|arXiv (Cornell University)|2019. 02. 19.

Face and Expression Recognition참고 문헌 78인용 수 61

한 줄 요약

본 논문은 감독 학습에서 결측값이 있는 예측의 베이즈 일관성을 연구하고, 평균 대입(mean imputation)이 일관적일 수 있음을 보이며, 학습 및 평가에서 결측 데이터를 다루기 위한 MI 및 MIA 기반 방법과 트리 방법을 제안한다.

ABSTRACT

In many application settings, the data have missing entries which make analysis challenging. An abundant literature addresses missing values in an inferential framework: estimating parameters and their variance from incomplete tables. Here, we consider supervised-learning settings: predicting a target when missing values appear in both training and testing data. We show the consistency of two approaches in prediction. A striking result is that the widely-used method of imputing with a constant, such as the mean prior to learning is consistent when missing values are not informative. This contrasts with inferential settings where mean imputation is pointed at for distorting the distribution of the data. That such a simple approach can be consistent is important in practice. We also show that a predictor suited for complete observations can predict optimally on incomplete data, through multiple imputation. Finally, to compare imputation with learning directly with a model that accounts for missing values, we analyze further decision trees. These can naturally tackle empirical risk minimization with missing values, due to their ability to handle the half-discrete nature of incomplete variables. After comparing theoretically and empirically different missing values strategies in trees, we recommend using the "missing incorporated in attribute" method as it can handle both non-informative and informative missing values.

연구 동기 및 목표

감독 학습에서의 결측 데이터 문제와 그것이 예측 정확도에 미치는 영향에 동기를 부여한다.
학습 및 테스트 세트에 결측값이 존재할 때 예측의 일관성에 대한 이론적 결과를 확립한다.
결측값 보간 기반 접근법과 결측값이 있는 데이터에서 직접 학습하는 방법을 비교하고, 결측 처리에 대한 결정 트리 방법을 분석한다.
트리에 대한 MIA를 포함하여 감독 학습에서 결측 데이터 전략을 선택하기 위한 실용적 권고안을 제안한다.

제안 방법

train/test 분할이 있는 감독 학습으로 결측 데이터 형식화를 확장한다.
완전한 데이터에 대한 최적 예측기를 사용한 테스트 시 다중 보간의 Bayes-일관성 결과를 증명한다.
학습에 앞서 평균 대입이 감독 예측에 대해 일관성을 가진다는 것을 보인다.
결측 데이터를 포함하는 경험적 위험 최소화(ERM)를 분석하고 트리 기반 방법들(대리값, 기본값, 블록 전파, MIA 등)에 대한 시사점을 도출한다.
다른 트리 기반 결측값 전략을 이론적으로 및 경험적으로 비교한다.
결측성 지시자(마스크)를 추가하는 실용적 보강과 그 효과에 대해 논의한다.

실험 결과

연구 질문

RQ1MAR 하에서 결측값이 있는 데이터로 평가될 때, 완전한 데이터로 학습된 최적 예측기가 여전히 Bayes-일관성을 가지는가?
RQ2단순한 평균 대입이 결측 데이터가 있는 감독 학습에서 일관성을 달성하기에 충분한가?
RQ3다양한 보간 및 트리 기반 전략이 불완전한 데이터에서 예측 일관성과 정확도를 달성하는 데 어떻게 비교되는가?
RQ4MAR 및 MNAR 하에서 MIA와 같은 결측 처리 전략을 트리에 포함시키는 것이 성능에 어떤 영향을 미치는가?

주요 결과

학습에 앞서 평균 대입은 감독 예측에 대해 Bayes-일관성을 가질 수 있다.
완전한 데이터에 대해 Bayes-일관성을 갖는 예측기를 사용한 테스트 시 다중 대입은 불완전한 테스트 데이터에서 Bayes-일관된 예측을 도출한다.
의사결정 트리 접근법은 결측값을 자연스럽게 처리할 수 있으며, MIA는 비정보적 및 정보성이 있는 결측에 대해 이론적 및 경험적으로 우수한 특성을 제공한다.
샘플 밖 보간은 학습/테스트 분포를 맞추기 위해 보간 모델의 신중한 처리가 필요하지만, EM 기반 또는 MI 접근은 MAR 하에서 강건한 예측을 제공할 수 있다.
결측성 지시자(마스크)를 포함하는 것이 실무적으로 유익할 수 있지만 항상 매개변수 추정에 이상적이지는 않다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.