Skip to main content
QUICK REVIEW

[论文解读] A Survey of Predictive Modelling under Imbalanced Distributions

Paula Branco, Luı́s Torgo|arXiv (Cornell University)|May 7, 2015
Imbalanced Data Classification Techniques参考文献 162被引用 173
一句话总结

本文对类别不平衡数据分布下的预测建模进行了全面综述,提出了一套统一的分类与回归任务框架。它引入了一种新颖的方法分类体系——数据预处理、专用学习方法和后处理——同时强调了评估指标及相关挑战(如小互斥集和噪声),为现实应用中处理罕见但关键事件提供了基础参考。

ABSTRACT

Many real world data mining applications involve obtaining predictive models using data sets with strongly imbalanced distributions of the target variable. Frequently, the least common values of this target variable are associated with events that are highly relevant for end users (e.g. fraud detection, unusual returns on stock markets, anticipation of catastrophes, etc.). Moreover, the events may have different costs and benefits, which when associated with the rarity of some of them on the available training data creates serious problems to predictive modelling techniques. This paper presents a survey of existing techniques for handling these important applications of predictive analytics. Although most of the existing work addresses classification tasks (nominal target variables), we also describe methods designed to handle similar problems within regression tasks (numeric target variables). In this survey we discuss the main challenges raised by imbalanced distributions, describe the main approaches to these problems, propose a taxonomy of these methods and refer to some related problems within predictive modelling.

研究动机与目标

  • 解决欺诈检测和医疗诊断等高影响但罕见事件领域中的预测建模关键挑战。
  • 为类别不平衡数据分布下的分类与回归任务制定通用问题定义。
  • 综述并分类现有处理不平衡数据的技术,包括数据预处理、学习算法和后处理策略。
  • 通过纳入回归任务并提出更广泛的分类体系(包含后处理方法)来扩展现有综述。
  • 探讨相关问题(如小互斥集、噪声和高维性)及其与类别不平衡的相互作用。

提出的方法

  • 使用重要性函数 φ(Y) 定义不平衡领域,为目标变量取值分配重要性权重,以区分罕见(高重要性)与常见(低重要性)情况。
  • 提出统一的问题表述:将训练集划分为 D_R(相关案例)和 D_N(正常案例),且满足 |D_R| ≪ |D_N|。
  • 将现有方法分为三类:数据预处理(如重采样)、专用学习(如代价敏感算法)和后处理(如阈值调整)。
  • 引入并回顾针对罕见类别性能偏倚的评估指标,如 F-measure、G-mean 和精确率-召回率曲线下面积。
  • 分析类别不平衡与类噪声、小互斥集及高维性等其他问题之间的相互作用。
  • 通过系统性文献回顾构建全面的分类体系,并识别当前研究中的空白,尤其在回归任务方面。

实验结果

研究问题

  • RQ1如何为分类与回归任务正式定义不平衡数据分布问题?
  • RQ2评估模型在罕见但关键目标值上的性能时,最有效的评估指标是什么?
  • RQ3数据预处理、学习算法改进与后处理策略在处理不平衡数据方面如何比较?
  • RQ4类别不平衡与小互斥集、数据噪声等问题之间存在何种关系?
  • RQ5为何不平衡研究中回归任务的涵盖程度较低?现有解决方案如何适配?

主要发现

  • 类别不平衡显著加剧了错误向小互斥集的集中,尤其在与噪声和低覆盖率结合时更为明显。
  • 即使在平衡数据集中,错误也倾向于集中在较小的互斥集上,但类别不平衡会加剧这一效应。
  • 后处理策略(如阈值调整)在提升罕见类别检测效果方面非常有效,但在以往综述中被严重低估。
  • 在不平衡领域中,噪声对模型性能的影响比不平衡本身更显著,且二者交互作用是关键因素。
  • 在高维不平衡数据集中,特征选择至关重要,因为它有助于减少噪声并增强模型对相关模式的关注。
  • 所提出的分类体系通过纳入后处理方法,扩展了以往工作,为处理不平衡预测建模提供了更完整的框架。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。