[论文解读] Weighted second-order cone programming twin support vector machine for imbalanced data classification
该论文提出了一种加权二次锥规划孪生支持向量机(WSOCP-TWSVM),用于处理不平衡数据分类问题。该方法结合基于图的欠采样技术,以去除冗余的多数类样本和异常值,并在SOCP-TWSVM优化中引入类别特定权重,显著提升了少数类的检测能力及整体性能,优于基线方法。
We propose a method of using a Weighted second-order cone programming twin support vector machine (WSOCP-TWSVM) for imbalanced data classification. This method constructs a graph based under-sampling method which is utilized to remove outliers and reduce the dispensable majority samples. Then, appropriate weights are set in order to decrease the impact of samples of the majority class and increase the effect of the minority class in the optimization formula of the classifier. These weights are embedded in the optimization problem of the Second Order Cone Programming (SOCP) Twin Support Vector Machine formulations. This method is tested, and its performance is compared to previous methods on standard datasets. Results of experiments confirm the feasibility and efficiency of the proposed method.
研究动机与目标
- 解决在欺诈检测、医学诊断和异常检测等场景中常见的不平衡数据集中少数类性能较差的挑战。
- 通过整合采样技术和代价敏感学习,克服标准SVM和TWSVM在处理类别不平衡问题时的局限性。
- 开发一种稳健且高效的分类框架,提升不平衡类别间的泛化能力和公平性。
提出的方法
- 应用基于图的欠采样方法,通过去除异常值和非必要样本,减少多数类样本数量,同时保留少数类实例。
- 在SOCP-TWSVM优化问题中引入类别特定权重,以降低多数类样本的影响,增强少数类样本的贡献。
- 采用二次锥规划(SOCP)建模分类问题,确保凸优化并具备强理论保障。
- 利用邻近图识别并移除基于局部密度和连通性的冗余多数类样本。
- 将误报率和误警率(η1, η2)作为SOCP约束中的参数,以控制间隔敏感度。
- 使用SeDuMi MATLAB工具箱求解所得的加权SOCP-TWSVM模型,实现高效的二阶锥优化。
实验结果
研究问题
- RQ1基于图的欠采样是否能在不损害少数类表征的前提下,有效减少多数类中的冗余?
- RQ2在SOCP-TWSVM中引入类别特定权重,是否能显著提升不平衡数据集上的性能,相比标准TWSVM和SVM?
- RQ3在多种不平衡数据集上,WSOCP-TWSVM与SMOTE、TWSVM和SOCP-TWSVM等现有方法相比,在准确率和G-mean方面表现如何?
- RQ4采样阶段与加权优化对训练时间和可扩展性有何影响?
- RQ5该方法是否能在线性和非线性核设置下,持续优于基线模型?
主要发现
- WSOCP-TWSVM在大多数UCI基准数据集上实现了最高的平均准确率和G-mean,尤其在Yeast3和Pageblocks等高度不平衡数据集上表现突出。
- 在线性和非线性核设置下,该方法均优于SOCP-TWSVM、SMOTESVM和标准TWSVM,且通过Friedman检验确认了统计上的显著提升。
- 在Yeast3和Heberman数据集上,WSOCP-TWSVM的表现优于所有其他分类器,展现出在具有挑战性的不平衡数据上的强大泛化能力。
- Friedman检验证实,WSOCP-TWSVM在多个数据集上的准确率和G-mean排名首位,表明其相对于竞争方法具有持续且显著的优势。
- 尽管由于采样阶段和SOCP求解导致训练时间增加,但性能提升足以证明计算开销的合理性,尤其是在高不平衡场景下。
- 该方法在不同不平衡比率下表现出鲁棒性,当η1和η2分别设置为0.4和0.6时性能最优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。