Skip to main content
QUICK REVIEW

[논문 리뷰] Missing Data Imputation using Optimal Transport

Boris Muzellec, Julie Josse|arXiv (Cornell University)|2020. 02. 10.
Domain Adaptation and Few-Shot Learning참고 문헌 30인용 수 41
한 줄 요약

본 논문은 누락 데이터를 보정하기 위해 최적 수송 기반 손실 함수(Sinkhorn 발산)를 제안하며, 비모수 및 모수적(라운드 로빈) 임퓨테이션 알고리즘을 적용하고, MCAR, MAR, MNAR 설정에서 UCI 데이터셋에 대해 뛰어난 성능을 보이며, 샘플 외 임퓨테이션을 가능하게 한다.

ABSTRACT

Missing data is a crucial issue when applying machine learning algorithms to real-world datasets. Starting from the simple assumption that two batches extracted randomly from the same dataset should share the same distribution, we leverage optimal transport distances to quantify that criterion and turn it into a loss function to impute missing data values. We propose practical methods to minimize these losses using end-to-end learning, that can exploit or not parametric assumptions on the underlying distributions of values. We evaluate our methods on datasets from the UCI repository, in MCAR, MAR and MNAR settings. These experiments show that OT-based methods match or out-perform state-of-the-art imputation methods, even for high percentages of missing values.

연구 동기 및 목표

  • 무작위 데이터 배치 간의 최적 수송 거리를 이용한 누락 데이터 보정의 필요성을 제시한다.
  • 누락 값을 임퓨트하기 위해 OT 기반 손실을 최소화하는 실용적 알고리즘을 개발한다.
  • 모수적 분포 가정이 있어도 없어도 작동할 수 있는 비모수 및 모수적 임퓨테이션 프레임워크를 제공한다.
  • MCAR, MAR, MNAR 설정 전반에 걸친 견고성을 입증하고 샘플 외 임퓨테이션을 가능하게 한다.

제안 방법

  • 경험적 배치 분포 간의 Sinkhorn 발산으로 OT 기반 손실을 정의한다.
  • 배치 OT 손실을 이용한 보정 값에 대한 기울기 업데이트로 직접 임퓨테이션(Algorithm 1)을 도입한다.
  • 같은 OT 손실로 학습되는 모수적 임퓨테이션 모델로 확장한다(Algorithm 2).
  • 변수별 분리 가능한 임퓨터 매개변수를 사용하는 라운드로빈 임퓨테이션 변형(Algorithm 3)을 구현한다.
  • MCAR/MAR/MNAR 메커니즘 및 비교 기준을 포함한 실용적 개선사항 및 평가 설정을 설명한다.

실험 결과

연구 질문

  • RQ1OT 기반 손실이 누락 값을 임퓨팅하기 위해 데이터 배치 간의 분포 유사성을 효과적으로 포착할 수 있는가?
  • RQ2OT 기반의 비모수 및 모수적 임퓨터가 일반적인 결측 메커니즘에서 기존 임퓨테이션 방법과 대등하거나 우수하게 성능을 보이는가?
  • RQ3제안된 방법들이 높은 결측률에 견디고 샘플 외 임퓨테이션이 가능한가?
  • RQ4실제 데이터 세트에서 OT 기반 임퓨테이션 접근법이 심층 학습 기반 임퓨테이션 방법과 어떻게 비교되는가?

주요 결과

  • OT 기반 임퓨테이션 방법이 다양한 데이터 세트에서 최첨단 임퓨테이션 방법과 동등하거나 이를 능가한다.
  • 직접 Sinkhorn 기반 임퓨테이션은 데이터 세트 및 설정 전반에서 경쟁력 있으며 높은 결측률에서도 효과적이다.
  • OT 손실을 사용하는 라운드로빈 임퓨테이션은 더 강력한 임퓨저와 함께 MAE/RMSE를 경쟁력 있게 유지하고 W2 점수를 향상시킨다.
  • OT 손실로 학습된 모수적 임퓨테이션 모델은 샘플 외 임퓨테이션을 가능하게 하며 안정적인 성능을 보여준다.
  • OT 기반 방법은 UCI 데이터셋에서 MCAR, MAR, MNAR 메커니즘 하에서 견고성을 보여준다.
  • 직접 OT 임퓨테이션은 종종 강력한 성능을 보이며 여러 설정에서 심층 학습 접근법을 능가할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.