Skip to main content
QUICK REVIEW

[論文レビュー] Diffusion models for missing value imputation in tabular data

Shuhan Zheng, Nontawat Charoenphakdee|arXiv (Cornell University)|Oct 31, 2022
Generative Adversarial Networks and Image Synthesis被引用数 20
ひとこと要約

TabCSDI は欠損値を補完するために条件付きスコアベース拡散を用い、3つのカテゴリ処理スキームを持つ;FT 埋め込みは多カテゴリデータで強い性能を示し、TabCSDI は数値変数の RMSE で競争力を持つ。

ABSTRACT

Missing value imputation in machine learning is the task of estimating the missing values in the dataset accurately using available information. In this task, several deep generative modeling methods have been proposed and demonstrated their usefulness, e.g., generative adversarial imputation networks. Recently, diffusion models have gained popularity because of their effectiveness in the generative modeling task in images, texts, audio, etc. To our knowledge, less attention has been paid to the investigation of the effectiveness of diffusion models for missing value imputation in tabular data. Based on recent development of diffusion models for time-series data imputation, we propose a diffusion model approach called "Conditional Score-based Diffusion Models for Tabular data" (TabCSDI). To effectively handle categorical variables and numerical variables simultaneously, we investigate three techniques: one-hot encoding, analog bits encoding, and feature tokenization. Experimental results on benchmark datasets demonstrated the effectiveness of TabCSDI compared with well-known existing methods, and also emphasized the importance of the categorical embedding techniques.

研究の動機と目的

  • 表形式データの欠損値補完を動機づけ、カテゴリ特徴に対する既存の拡散モデルの限界を解決する。
  • カテゴリと数値特徴を含む表形式データに特化した条件付きスコアベース拡散モデル TabCSDI を提案する。
  • 混在変数および数値データセットに対して、既存手法と比較して競争力のある性能を示す TabCSDI を評価する。

提案手法

  • 入力を観測済み部分 (co) と観測不能部分 (ta) に分割して対象となるノイズ除去を行う拡散ベースの欠損値補完フレームワークを採用する。
  • 時系列成分を除去し、表形式データに適した簡易な残差トランスフォーマー-MLP ボディを追加することで CSDI を拡張する。
  • カテゴリ埋め込みスキームを3つ導入する:one-hot エンコーディング、analog bits エンコーディング、そして特徴トークナイザ埋め込みを用いて混合データ型を扱う。
  • カテゴリ出力は埋め込み空間での最近傍法により、数値出力は拡散デコード後の埋め込みごとの平均化により回復する。
  • 欠損値を徐々に推定するように p(x_t-1^ta | x_t^ta, x_0^co) をモデル化する条件付きスコアベース拡散目的で訓練する。
  • TabCSDI を Mean/Mode、MICE(線形および MissForest)、および GAIN と比較する7つのデータセットで実験を実施する。

実験結果

リサーチクエスチョン

  • RQ1拡散ベースのモデルを数値変数とカテゴリ変数が混在する表形式データの欠損値補完に効果的に適用できるか。
  • RQ2異なるカテゴリ埋め込み戦略(one-hot、analog bits、特徴トークナイザ)が補完性能にどのように影響するか。
  • RQ3TabCSDI は混在変数データセットおよび数値データセットの欠損推定精度(RMSE/Err)で確立された手法に対して競争力を持つか。

主な発見

方法糖尿病 RMSE糖尿病 ErrCOVID-19 RMSECOVID-19 Err国勢調査 RMSE国勢調査 Err
Mean / Mode0.222 (0.003)0.260 (0.004)0.138 (0.002)0.144 (0.002)0.120 (0.003)0.424 (0.003)
MICE (linear)0.263 (0.002)0.270 (0.004)0.125 (0.003)0.300 (0.038)0.101 (0.002)0.530 (0.011)
MissForest0.216 (0.003)0.214 (0.001)0.120 (0.002)0.131 (0.002)0.112 (0.004)0.300 (0.014)
GAIN0.202 (0.003)0.282 (0.005)0.127 (0.002)0.217 (0.011)0.123 (0.057)0.412 (0.012)
TabCSDI/ one-hot0.197 (0.001)0.222 (0.005)0.122 (0.003)0.111 (0.012)0.099 (0.004)0.400 (0.033)
TabCSDI/ analog bits0.197 (0.001)0.222 (0.005)0.122 (0.003)0.111 (0.012)0.103 (0.004)0.376 (0.013)
TabCSDI/ FT0.206 (0.002)0.224 (0.004)0.123 (0.002)0.107 (0.002)0.098 (0.003)0.345 (0.002)
  • TabCSDI のバリアントは混在変数データセット(糖尿病 Diabetes、COVID-19、国勢調査 Census)において Mean/Mode、MICE、MissForest、GAIN と比較して競争力のある RMSE を達成する。
  • カテゴリ処理スキームの中で、特徴トークン化(FT)は Census で Er r がより良い傾向を示す一方、one-hot および analog bits は RMSE で類似している。
  • 数値変数については、TabCSDI が複数のデータセットで一般的に最良の RMSE を提供し、数値欠損補完の拡散ベースの反復的デノイズの強さを強調している。
  • FT の利点は多カテゴリ変数を含むデータセットで顕著で、埋め込みの整合性と列のバランス低減が寄与している可能性がある。
  • 拡散ベースのデコードはターゲット値の徐々の洗練を可能にし、従来の手法および深層生成ベースのベースラインに対して TabCSDI の競争力のある性能に寄与している。
  • 本研究は表形式データ欠損補完におけるカテゴリ埋め込み設計の重要性を示し、TabCSDI が競争力のある性能に訓練できることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。