[论文解读] Missing Data Imputation using Optimal Transport
本文提出基于最优传输的损失函数(Sinkhorn 发散)来估算缺失数据,具有非参数和参数化(轮询)插补算法,在 UCI 数据集上在 MCAR、MAR 和 MNAR 设置下表现出色,并支持样本外插补。
Missing data is a crucial issue when applying machine learning algorithms to real-world datasets. Starting from the simple assumption that two batches extracted randomly from the same dataset should share the same distribution, we leverage optimal transport distances to quantify that criterion and turn it into a loss function to impute missing data values. We propose practical methods to minimize these losses using end-to-end learning, that can exploit or not parametric assumptions on the underlying distributions of values. We evaluate our methods on datasets from the UCI repository, in MCAR, MAR and MNAR settings. These experiments show that OT-based methods match or out-perform state-of-the-art imputation methods, even for high percentages of missing values.
研究动机与目标
- 通过随机数据批之间的最优传输距离来激励缺失数据插补。
- 开发实用算法以最小化基于 OT 的损失来插补缺失值。
- 提供可以在有或没有参数分布假设下工作的非参数和参数化插补框架。
- 展示在 MCAR、MAR 和 MNAR 设置下的鲁棒性,并实现样本外插补。
提出的方法
- 通过经验批分布之间的 Sinkhorn 发散定义 OT 基损失。
- 通过对插补值进行梯度更新以使用批 OT 损失,引入直接插补(算法 1)。
- 扩展到使用相同 OT 损失训练的参数化插补模型(算法 2)。
- 实现一个轮询插补变体(算法 3),对每个变量使用可分离的插补参数。
- 描述实际的增强和评估设置,包括 MCAR/MAR/MNAR 机制与对比基线。
实验结果
研究问题
- RQ1基于 OT 的损失能否有效捕捉数据批之间的分布相似性以用于插补缺失值?
- RQ2在常见缺失机制下,基于 OT 的非参数和参数化插补方法是否能达到或超越现有插补方法?
- RQ3所提出的方法在高缺失率下是否鲁棒且能实现样本外插补?
- RQ4在真实数据集上,基于 OT 的插补方法与深度学习插补方法的比较?
主要发现
- 基于 OT 的插补方法在多样化数据集上达到或优于最先进的插补方法。
- 直接的基于 Sinkhorn 的插补在各数据集和设置下具有竞争力,包括高缺失率。
- 使用 OT 损失的轮询插补在更强大的插补器下提供具有竞争力的 MAE/RMSE,并且提高了 W2 分数。
- 用 OT 损失训练的参数化插补模型实现样本外插补,性能稳定。
- 在 UCI 数据集上,OT 基方法在 MCAR、MAR 与 MNAR 机制下表现出鲁棒性。
- 直接的 OT 插补在多种情形下通常表现出色,甚至在某些设置上优于深度学习方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。