QUICK REVIEW

[논문 리뷰] Missing Data Imputation for Classification Problems

Arkopal Choudhury, Michael R. Kosorok|arXiv (Cornell University)|2020. 02. 25.

Face and Expression Recognition참고 문헌 49인용 수 25

한 줄 요약

이 논문은 상호정보량을 활용해 기능 중요도를 우선순위화하고, 회색 거리(gray distance)를 사용해 이질적인 데이터에서 결측치를 견고하게 처리하는 새로운 클래스 가중 회색 k-최근접 이웃(CGKNN) 보간 방법을 제안한다. 다양한 결측률을 가진 시뮬레이션 및 실세계 데이터셋에서 기존의 kNN, MICE, missForest 방법보다 보간 정확도와 후속 분류 성능 모두에서 뛰어난 성능을 보였다.

ABSTRACT

Imputation of missing data is a common application in various classification problems where the feature training matrix has missingness. A widely used solution to this imputation problem is based on the lazy learning technique, $k$-nearest neighbor (kNN) approach. However, most of the previous work on missing data does not take into account the presence of the class label in the classification problem. Also, existing kNN imputation methods use variants of Minkowski distance as a measure of distance, which does not work well with heterogeneous data. In this paper, we propose a novel iterative kNN imputation technique based on class weighted grey distance between the missing datum and all the training data. Grey distance works well in heterogeneous data with missing instances. The distance is weighted by Mutual Information (MI) which is a measure of feature relevance between the features and the class label. This ensures that the imputation of the training data is directed towards improving classification performance. This class weighted grey kNN imputation algorithm demonstrates improved performance when compared to other kNN imputation algorithms, as well as standard imputation algorithms such as MICE and missForest, in imputation and classification problems. These problems are based on simulated scenarios and UCI datasets with various rates of missingness.

연구 동기 및 목표

분류 문제에서 보간 과정 중 클래스 레이블 정보를 忽시하는 기존 보간 방법의 한계를 해결하기 위해.
특히 수치형과 범주형이 혼합된 기능을 가진 이질적 데이터에 대해 결측치가 있는 경우의 보간 정확도를 향상시키기 위해.
상호정보량을 통한 클래스 관련성 통합을 통해 kNN 기반 보간 기법이 후속 분류 성능을 향상시키는 방법을 개발하기 위해.
기존의 민코프스키 거리보다 이질적 데이터 유형을 더 잘 다루는 거리 척도(회색 거리)를 사용해 보간의 분산과 편향을 줄이기 위해.
표준 보간 기법인 MICE와 missForest에 비해 보간 오차와 분류 정확도 측면에서 제안된 방법의 우수성을 입증하기 위해.

제안 방법

이상치에 강건한 이질적 데이터 유형에 적합한 유사도 척도로 회색 거리를 사용하는 반복적 kNN 보간 프레임워크를 제안한다.
이웃 선택 과정에서 관련 기능을 우선순위화하기 위해 기능과 클래스 레이블 간의 상호정보량(MI)을 통합한 클래스 가중 회색 거리를 도입한다.
분류에 가장 유용한 기능을 강조하기 위해 거리 계산에 상호정보량을 가중치로 적용한다.
교차검증을 통해 선택된 k값을 기반으로 가중 회색 거리 공간에서 k개의 가장 가까운 이웃의 평균을 사용해 결측치를 보간한다.
정련된 데이터를 반복적으로 업데이트하여 수렴할 때까지 보간과 분류 성능을 향상시킨다.
보간된 데이터에 대해 나이브 베이즈 분류기를 적용하여 분류 정확도를 평가하고, 다양한 데이터셋과 결측률에서 결과를 비교한다.

실험 결과

연구 질문

RQ1보간 과정에서 클래스 레이블 정보를 통합하면, 기능이 결손된 데이터셋에서 분류 정확도를 향상시킬 수 있는가?
RQ2상호정보량 가중치를 적용한 회색 거리 사용이, 이질적 데이터에서 표준 민코프스키 기반 kNN 보간보다 우수한가?
RQ3CGKNN 방법은 보간 오차와 분류 성능 측면에서 MICE와 missForest와 비교해 어떻게 성능을 내는가?
RQ4실세계 데이터셋에서 다양한 결측률(5%, 10%, 20%)에 대해 이 방법이 높은 성능을 유지할 수 있는가?
RQ5알고리즘의 반복적 구조가 안정적인 보간 결과와 향상된 분류 성과를 도출하는 데 효과적인가?

주요 결과

CGKNN 방법은 모든 테스트 데이터셋(Iris, Voting, Hepatitis)에서 모든 결측률 수준(5%, 10%, 20%)에서 가장 낮은 RMSE를 기록했으며, MICE, missForest 및 기타 kNN 변종보다 뛰어난 성능을 보였다.
Iris 데이터셋에서 20% 결측률 조건에서 CGKNN은 96.7%의 분류 정확도를 달성했으며, FWGKNN(94.2%) 및 GKNN(93.8%)를 크게 앞섰다.
20% 결측률에서 Hepatitis 데이터셋에서 CGKNN은 RMSE를 0.1049로 줄였고, MICE의 0.1967과 missForest의 0.1858보다 낮았다.
분류 정확도에서 빠른 수렴을 보였으며, 특히 낮은 결측률 수준에서 수렴이 매우 신속하게 이루어졌다.
상호정보량을 가중치로 사용함으로써 기능 예측에 가장 관련성이 높은 기능에 집중함으로써 보간 품질이 크게 향상되었다.
실증 결과에 따르면, CGKNN은 보간 오차와 후속 분류 정확도 측면에서 최신 보간 방법들을 일관되게 능가했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.