QUICK REVIEW

[论文解读] Survey of resampling techniques for improving classification performance in unbalanced datasets

Ajinkya More|arXiv (Cornell University)|Aug 22, 2016

Imbalanced Data Classification Techniques参考文献 10被引用 179

一句话总结

该论文回顾用于不平衡分类的重采样技术，在合成数据集上比较多种方法，关注少数类召回率与多数类精确率。

ABSTRACT

A number of classification problems need to deal with data imbalance between classes. Often it is desired to have a high recall on the minority class while maintaining a high precision on the majority class. In this paper, we review a number of resampling techniques proposed in literature to handle unbalanced datasets and study their effect on classification performance.

研究动机与目标

在诸如欺诈检测、产品分类和疾病诊断等领域，激励并定义数据不平衡问题。
系统性地在一个合成的双类数据集上比较广泛的重采样技术，以评估对少数类召回率和多数类精确率的影响。
展示不同方法在使用如逻辑回归等常见分类器时对决策边界的影响。
突出在本研究中，在选定指标下表现最佳的组合和集成方法。

提出的方法

使用带有偏斜类别权重的合成双类数据集来模拟不平衡（r = |S|/|L| = 0.1）。
使用标准交叉验证评估基线逻辑回归以建立参照。
应用带权重的损失、欠采样（随机、NearMiss变体、CNN、ENN、Tomek）、过采样（随机、SMOTE、Borderline-SMOTE变体）以及组合方法（SMOTE+ENN、SMOTE+Tomek）。
测试将重采样与提升结合的集成方法（EasyEnsemble、BalanceCascade）。
在70/30的训练/测试划分、5折交叉验证用于参数选择的情况下，报告多数类（L）的精确率和少数类（S）的召回率的性能。

实验结果

研究问题

RQ1不同的重采样策略如何影响多数类精确率与少数类召回率之间的权衡？
RQ2在合成不平衡数据上，哪种重采样方法或组合在维持高多数类精确率的同时获得最佳的少数类召回率？
RQ3在给定的指标上，集成方法是否优于单一模型的重采样方法？
RQ4使用带权重的损失与仅重采样相比对分类性能有何影响？
RQ5在本设置中，是否存在某些变体（例如 Borderline-SMOTE、ENN、Tomek、SMOTE+ENN）始终表现更好？

主要发现

未进行重采样的基线逻辑回归在少数类召回率低（0.12）的同时多数类精确率高（0.90）。
带权重的损失提高了少数类召回率（0.89），多数类精确率也很高（0.98）。
欠采样方法通常降低多数类精确率，但在某些变体（如 NearMiss 变体、CNN、ENN）中可以提高少数类召回率，影响各异。
过采样方法，尤其是 SMOTE 变体及组合（SMOTE+ENN、SMOTE+Tomek），显著提升少数类召回率，同时维持或提高多数类精确率。
像 EasyEnsemble 和 BalanceCascade 这样的集成方法在 L 上达到高精确度（≈0.99）和少数类召回率（≈0.91）。
总的来说，在该合成数据集上，使用逻辑回归的 SMOTE+ENN 与 BalanceCascade 在所选指标上表现强劲。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。