QUICK REVIEW

[论文解读] Deep Over-sampling Framework for Classifying Imbalanced Data

Shin Ando, Chun Huang|arXiv (Cornell University)|Apr 25, 2017

Imbalanced Data Classification Techniques参考文献 27被引用 22

一句话总结

本文提出深度过采样（DOS），一种新颖的框架，通过在卷积神经网络（CNN）特征空间中生成合成嵌入，提升类别不平衡数据中的深度表征学习与分类性能。通过迭代地使用源自类内邻近样本的合成目标训练网络，DOS降低了类内方差，从而在各类不平衡与平衡基准上均显著提升了少数类与多数类的性能表现。

ABSTRACT

Class imbalance is a challenging issue in practical classification problems for deep learning models as well as traditional models. Traditionally successful countermeasures such as synthetic over-sampling have had limited success with complex, structured data handled by deep learning models. In this paper, we propose Deep Over-sampling (DOS), a framework for extending the synthetic over-sampling method to exploit the deep feature space acquired by a convolutional neural network (CNN). Its key feature is an explicit, supervised representation learning, for which the training data presents each raw input sample with a synthetic embedding target in the deep feature space, which is sampled from the linear subspace of in-class neighbors. We implement an iterative process of training the CNN and updating the targets, which induces smaller in-class variance among the embeddings, to increase the discriminative power of the deep representation. We present an empirical study using public benchmarks, which shows that the DOS framework not only counteracts class imbalance better than the existing method, but also improves the performance of the CNN in the standard, balanced settings.

研究动机与目标

解决深度学习中复杂结构化数据（如图像）的类别不平衡问题。
克服传统过采样方法在非线性表示的深度特征空间中失效的局限性。
在不修改网络结构的前提下，同时提升分类器性能与深度表征质量。
探究在深度特征空间中引入合成监督是否能超越标准数据增强，进一步增强表征的判别能力。
在不同不平衡程度与平衡条件下的多个公开基准上验证该框架的有效性。

提出的方法

使用双重监督信号训练CNN：在类别标签上使用标准交叉熵损失，同时引入新损失函数，使深层特征回归到特征空间中的合成目标。
通过从每个输入样本在深层特征空间中k近邻所张成的线性子空间中采样，生成合成目标。
采用迭代训练流程：先在真实数据上训练CNN，然后利用当前嵌入更新合成目标，再使用更新后的目标重新训练网络。
通过显式监督表征学习，促使嵌入更紧密地聚集在各类均值周围，从而减少类内方差。
保持标准CNN架构不变，仅通过添加双头监督机制来同时优化表征学习与分类任务。
通过k值（用于定义采样线性子空间的邻近样本数量）控制合成样本的归纳偏置。

实验结果

研究问题

RQ1与标准深度学习及现有过采样方法相比，是否能在深度特征空间中通过合成过采样显著提升图像数据集在类别不平衡情况下的分类性能？
RQ2所提出的框架是否不仅提升了分类准确率，还增强了学习到的深层表征的判别能力？
RQ3框架性能对k近邻选择中k值的选择是否敏感？
RQ4DOS的优势是否也能在平衡数据设置中观察到，表明其具备更强的泛化能力与表征学习能力？
RQ5对合成目标与网络权重的迭代优化是否能生成更鲁棒且具有类别判别力的特征嵌入？

主要发现

在类别不平衡基准上，DOS显著优于标准CNN及采用类别平衡的CNN（CNN-CL），尤其在少数类的F1与AUC指标上表现突出。
在MNIST-bak-rot数据集（90%不平衡）上，DOS（k=5）实现少数类0.82的F1与0.84的AUC，而CNN-CL仅达0.42与0.78。
在SVHN数据集（90%不平衡）上，DOS（k=5）实现少数类0.64的F1与0.80的AUC，优于CNN-CL的0.37与0.61。
在平衡设置（SVHN、CIFAR-10、STL-10）下，DOS相较标准CNN将F1分数提升0.01–0.03，且在所有数据集与k值下均保持一致增益。
框架对k值的敏感度极低，k=3、5、10时性能差异微小，表明对超参数选择具有鲁棒性。
与标准CNN相比，运行时间增加11–32%，其中SVHN的开销最高，表明其在获得显著性能提升的同时仅带来适度的计算成本。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。