[论文解读] Review for Handling Missing Data with special missing mechanism
本文综述表格数据中的特殊缺失机制(MAR 和 MNAR),评估插补方法(重点是深度学习),并指出存在的空白与未来研究方向。
Missing data poses a significant challenge in data science, affecting decision-making processes and outcomes. Understanding what missing data is, how it occurs, and why it is crucial to handle it appropriately is paramount when working with real-world data, especially in tabular data, one of the most commonly used data types in the real world. Three missing mechanisms are defined in the literature: Missing Completely At Random (MCAR), Missing At Random (MAR), and Missing Not At Random (MNAR), each presenting unique challenges in imputation. Most existing work are focused on MCAR that is relatively easy to handle. The special missing mechanisms of MNAR and MAR are less explored and understood. This article reviews existing literature on handling missing values. It compares and contrasts existing methods in terms of their ability to handle different missing mechanisms and data types. It identifies research gap in the existing literature and lays out potential directions for future research in the field. The information in this review will help data analysts and researchers to adopt and promote good practices for handling missing data in real-world problems.
研究动机与目标
- 总结缺失数据是什么以及为何对现实世界的表格数据处理它们至关重要。
- 调查并比较在 MCAR、MAR 和 MNAR 下处理缺失数据的方法,重点是 MAR/MNAR。
- 突出用于插补的深度学习和表示学习方法。
- 编目与 MAR 和 MNAR 相关的缺失数据生成方法。
- 确定研究空白并提出未来工作的方向。
提出的方法
- 给出缺失数据处理方法的分类法(删除、插补、表示学习)。
- 重点是基于插补的技术,关注深度学习方法及其在特殊缺失机制中的适用性。
- 讨论统计、机器学习、深度学习和基于优化的插补方法,包括 MI/MI 变体和神经网络为基础的方案。
- 考察缺失数据机制(MCAR/MAR/MNAR)如何影响方法选择和评估。
- 编目用于生成 MAR/MNAR 缺失数据的方法,以便进行方法比较。
实验结果
研究问题
- RQ1现有缺失数据方法在 MAR 和 MNAR 下与在 MCAR 下相比的表现如何?
- RQ2针对表格数据中的特殊缺失机制,哪些基于深度学习的插补技术是有效的?
- RQ3关于 MAR 和 MNAR 的文献空缺有哪些,提出了哪些未来方向?
- RQ4如何将 MAR/MNAR 的缺失数据生成标准化,以实现公平的的方法比较?
主要发现
- 研究方法显著集中于 MCAR,而 MAR 和 MNAR 的研究较少。
- 已有删除、插补和表示学习方法的广泛分类,深度学习在插补方面日益突出。
- 本文指出缺乏标准化的 MAR/MNAR 数据生成做法,阻碍跨方法比较。
- 呼吁进行全面的综述与未来研究方向,以推动在现实世界问题中 MAR/MNAR 的处理。
- 综述强调表示学习作为在复杂缺失机制下实现稳健插补的有希望的途径。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。