QUICK REVIEW

[论文解读] Deep Synthetic Minority Over-Sampling Technique

Hadi Mansourifar, Weidong Shi|arXiv (Cornell University)|Mar 22, 2020

Imbalanced Data Classification Techniques参考文献 27被引用 29

一句话总结

本文提出 Deep SMOTE，一种基于深度学习的方法，通过训练深度神经网络来学习少数类样本之间的插值模式，从而稳定合成少数类过采样技术（SMOTE）。与随机插值不同，该模型通过成对输入向量预测合成样本，从而实现更一致且性能更优的分类结果，在多个基准测试中相比传统 SMOTE 显著提升了 F1 分数、精确率和 AUC。

ABSTRACT

Synthetic Minority Over-sampling Technique (SMOTE) is the most popular over-sampling method. However, its random nature makes the synthesized data and even imbalanced classification results unstable. It means that in case of running SMOTE n different times, n different synthesized in-stances are obtained with n different classification results. To address this problem, we adapt the SMOTE idea in deep learning architecture. In this method, a deep neural network regression model is used to train the inputs and outputs of traditional SMOTE. Inputs of the proposed deep regression model are two randomly chosen data points which are concatenated to form a double size vector. The outputs of this model are corresponding randomly interpolated data points between two randomly chosen vectors with original dimension. The experimental results show that, Deep SMOTE can outperform traditional SMOTE in terms of precision, F1 score and Area Under Curve (AUC) in majority of test cases.

研究动机与目标

为解决传统 SMOTE 因其随机插值过程导致的不稳定性问题。
提升不平衡分类任务中合成少数类样本生成的一致性与可靠性。
利用深度学习建模并学习数据的潜在分布，以实现更有效且稳定的合成样本生成。
在 F1 分数、精确率和 AUC 等关键分类指标上超越标准 SMOTE。
提供一种确定性替代方案，以减少随机 SMOTE 在多次运行中性能的方差。

提出的方法

训练一个深度神经网络回归模型，基于成对输入数据点预测合成少数类样本。
模型的输入是两个随机选择的少数类样本，拼接成原始维度两倍的单一向量。
模型的输出是介于两个输入向量之间的合成数据点，保持原始特征空间的维度。
网络通过端到端的回归损失进行训练，以最小化预测值与实际插值点之间的差异。
训练完成的模型取代 SMOTE 中的随机插值步骤，确保在多次运行中合成样本生成的一致性。
该方法保留了 SMOTE 的核心思想，但用学习到的、确定性的回归过程替代了随机插值。

实验结果

研究问题

RQ1深度学习模型能否通过稳定 SMOTE 中的合成样本生成过程，减少多次运行中的性能方差？
RQ2从数据中学习插值模式是否能带来比随机插值更好的泛化能力和分类性能？
RQ3与传统 SMOTE 相比，Deep SMOTE 在 F1 分数、精确率和 AUC 等关键指标上的提升程度如何？
RQ4Deep SMOTE 的确定性特性如何影响不平衡分类结果的可重现性与可靠性？
RQ5Deep SMOTE 的性能增益是否在多样化的不平衡数据集上保持一致？

主要发现

Deep SMOTE 在多个测试案例中一致优于传统 SMOTE 的 F1 分数。
该方法相比标准 SMOTE 实现了更高的精确率，表明正样本预测的准确性更好。
Deep SMOTE 提升了曲线下面积（AUC）指标，表明分类器的判别能力增强。
该方法显著降低了多次运行中分类结果的方差，证明其稳定性优于随机 SMOTE。
深度回归模型成功学习到生成更符合少数类分布的合成样本。
实验结果证实，Deep SMOTE 的确定性特性带来了更可靠且可重现的不平衡学习性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。