QUICK REVIEW

[논문 리뷰] Diffusion models for missing value imputation in tabular data

Shuhan Zheng, Nontawat Charoenphakdee|arXiv (Cornell University)|2022. 10. 31.

Generative Adversarial Networks and Image Synthesis인용 수 20

한 줄 요약

TabCSDI는 조건부 점수 기반 확산을 사용하여 표 형 데이터의 누락 값을 보정하고, 세 가지 범주 처리 스키마가 있으며; FT 임베딩은 다중 범주 데이터에서 강력한 성능을 보이고, TabCSDI는 수치 변수에서 RMSE가 경쟁력 있음.

ABSTRACT

Missing value imputation in machine learning is the task of estimating the missing values in the dataset accurately using available information. In this task, several deep generative modeling methods have been proposed and demonstrated their usefulness, e.g., generative adversarial imputation networks. Recently, diffusion models have gained popularity because of their effectiveness in the generative modeling task in images, texts, audio, etc. To our knowledge, less attention has been paid to the investigation of the effectiveness of diffusion models for missing value imputation in tabular data. Based on recent development of diffusion models for time-series data imputation, we propose a diffusion model approach called "Conditional Score-based Diffusion Models for Tabular data" (TabCSDI). To effectively handle categorical variables and numerical variables simultaneously, we investigate three techniques: one-hot encoding, analog bits encoding, and feature tokenization. Experimental results on benchmark datasets demonstrated the effectiveness of TabCSDI compared with well-known existing methods, and also emphasized the importance of the categorical embedding techniques.

연구 동기 및 목표

표 형 데이터에서 누락 값 보정의 동기를 제시하고 범주형 특징에 대한 기존 확산 모델의 한계를 해결한다.
범주형 및 수치 특성을 가진 표 형 데이터에 맞춘 조건부 점수 기반 확산 모델 TabCSDI를 제안한다.
혼합 변수 및 수치 데이터셋에서 TabCSDI를 기존 방법과 비교 평가하여 경쟁력 있는 성능을 입증한다.

제안 방법

입력 값을 관찰된(co) 부분과 비관찰된(ta) 부분으로 분리하여 표적 디노이징을 수행하는 확산 기반 보정 프레임워크를 채택한다.
시간적 구성요소를 제거하고 표 형 데이터에 적합한 간단한 잔차 트랜스포머-MLP 백본으로 CSDI를 확장한다.
세 가지 범주 인코딩 스킴(원-핫 인코딩, 아날로그 비트 인코딩, 특징 토크나이저 임베딩)을 도입하여 혼합 데이터 타입을 처리한다.
임베딩 공간에서 최근접 이웃으로 범주 출력을 회복하고, 확산 디코딩 후 임베딩 차원의 평균으로 수치 출력을 얻는다.
누락 값을 점진적으로 추론하기 위해 p(x_t-1^ta | x_t^ta, x_0^co)를 모델링하는 조건부 점수 기반 확산 목표로 학습한다.
일곱 개 데이터셋에서 TabCSDI를 Mean/Mode, MICE(선형 및 MissForest), GAIN과 비교하는 실험을 수행한다.

실험 결과

연구 질문

RQ1확산 기반 모델이 혼합 numerical 및 categorical 특성을 가진 표 형 데이터의 보정에 효과적으로 적용될 수 있는가?
RQ2다양한 범주형 임베딩 전략(원-핫, 아날로그 비트, 특징 토크나이저)이 보정 성능에 어떤 영향을 미치는가?
RQ3TabCSDI가 혼합 변수 및 수치 데이터셋에서 기존 방법에 비해 보정 정확도(RMSE/오차) 측면에서 경쟁력을 제공하는가?

주요 결과

방법	당뇨 RMSE	당뇨 Err	COVID-19 RMSE	COVID-19 Err	인구조사 RMSE	인구조사 Err
Mean / Mode	0.222 (0.003)	0.260 (0.004)	0.138 (0.002)	0.144 (0.002)	0.120 (0.003)	0.424 (0.003)
MICE (linear)	0.263 (0.002)	0.270 (0.004)	0.125 (0.003)	0.300 (0.038)	0.101 (0.002)	0.530 (0.011)
MissForest	0.216 (0.003)	0.214 (0.001)	0.120 (0.002)	0.131 (0.002)	0.112 (0.004)	0.300 (0.014)
GAIN	0.202 (0.003)	0.282 (0.005)	0.127 (0.002)	0.217 (0.011)	0.123 (0.057)	0.412 (0.012)
TabCSDI/ one-hot	0.197 (0.001)	0.222 (0.005)	0.122 (0.003)	0.111 (0.012)	0.099 (0.004)	0.400 (0.033)
TabCSDI/ analog bits	0.197 (0.001)	0.222 (0.005)	0.122 (0.003)	0.111 (0.012)	0.103 (0.004)	0.376 (0.013)
TabCSDI/ FT	0.206 (0.002)	0.224 (0.004)	0.123 (0.002)	0.107 (0.002)	0.098 (0.003)	0.345 (0.002)

TabCSDI 변형은 혼합 변수 데이터셋(Diabetes, COVID-19, Census)에서 Mean/Mode, MICE, MissForest, GAIN과 비교하여 경쟁력 있는 RMSE를 달성한다.
범주 처리 스키마 중 특징 토큰화(FT)가 Census에서 더 나은 Err를 자주 거래하며, 원-핫 및 아날로그 비트는 RMSE 측면에서 비슷하다.
수치 변수의 경우 TabCSDI가 여러 데이터셋에서 일반적으로 최상의 RMSE를 제공하며, 수치 보정에 대한 확산 기반 반복 디노이딩의 강점을 강조한다.
다중 범주 변수를 가진 데이터셋에서 FT의 이점이 두드러지며, 이는 임베딩 일관성과 열 불균형 감소 때문일 가능성이 있다.
확산 기반 디코딩은 목표 값을 점차 정제하도록 하여 전통적 및 심층 생성 기반 기준선에 비해 TabCSDI의 경쟁력을 높인다.
이 연구는 표 형 데이터 보정에서 범주형 임베딩 설계의 중요성을 보여주고 TabCSDI가 경쟁력 있는 성능으로 학습될 수 있음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.