QUICK REVIEW

[논문 리뷰] Weighted second-order cone programming twin support vector machine for imbalanced data classification

Saeideh Roshanfekr, Shahriar Esmaeili|arXiv (Cornell University)|2019. 01. 01.

Imbalanced Data Classification Techniques참고 문헌 25인용 수 2

한 줄 요약

이 논문은 불균형 데이터 분류를 위한 가중치 부여된 이차원뿔 프rogramming 쌍둥이 서포트 벡터 머신(WSOCP-TWSVM)을 제안한다. 그래프 기반 오버샘플링을 통해 다수 클래스의 중복 샘플과 이상치를 제거하고, SOCP-TWSVM 최적화 과정에 클래스별 가중치를 통합하여 소수 클래스 탐지 능력과 전반적인 성능을 기존 기준 방법들보다 크게 향상시킨다.

ABSTRACT

We propose a method of using a Weighted second-order cone programming twin support vector machine (WSOCP-TWSVM) for imbalanced data classification. This method constructs a graph based under-sampling method which is utilized to remove outliers and reduce the dispensable majority samples. Then, appropriate weights are set in order to decrease the impact of samples of the majority class and increase the effect of the minority class in the optimization formula of the classifier. These weights are embedded in the optimization problem of the Second Order Cone Programming (SOCP) Twin Support Vector Machine formulations. This method is tested, and its performance is compared to previous methods on standard datasets. Results of experiments confirm the feasibility and efficiency of the proposed method.

연구 동기 및 목표

사기 탐지, 의료 진단, 이상 탐지 등에서 흔히 발생하는 불균형 데이터 세트에서의 낮은 소수 클래스 성능 문제를 해결한다.
표준 SVM과 TWSVM이 클래스 불균형을 다루는 데에 한계가 있음을 극복하기 위해 샘플링 기법과 비용 민감 학습을 통합한다.
불균형 클래스 간 일반화 능력과 공정성을 향상시키는 강력하고 효율적인 분류 프레임워크를 개발한다.

제안 방법

다수 클래스의 이상치와 필수적이지 않은 샘플을 제거하면서도 소수 클래스 인스턴스를 유지하기 위해 그래프 기반 오버샘플링 방법을 적용한다.
소수 클래스 샘플의 영향력을 증대시키고 다수 클래스 샘플의 영향력을 감소시키기 위해 SOCP-TWSVM 최적화 문제에 클래스별 가중치를 도입한다.
이차원뿔 프로그래밍(SOCP)을 사용하여 분류 문제를 수식화하여 강력한 이론적 보장을 갖춘 볼록 최적화를 보장한다.
근접성 그래프를 사용하여 국소 밀도와 연결성 기반으로 중복된 다수 클래스 샘플을 식별하고 제거한다.
마진 민감도를 제어하기 위해 오분류 확률(η1, η2)을 SOCP 제약 조건의 파라미터로 통합한다.
효율적인 이차원뿔 최적화를 위해 결과로 도출된 가중치 부여된 SOCP-TWSVM 모델을 SeDuMi MATLAB 도구상자로 해결한다.

실험 결과

연구 질문

RQ1그래프 기반 오버샘플링은 소수 클래스 표현을 훼손시키지 않고 다수 클래스의 레이어링을 효과적으로 줄일 수 있는가?
RQ2SOCP-TWSVM에 클래스별 가중치를 통합하면 표준 TWSVM 및 SVM에 비해 불균형 데이터 세트에서 성능을 크게 향상시킬 수 있는가?
RQ3다양한 불균형 데이터 세트에서 WSOCP-TWSVM은 SMOTE, TWSVM, SOCP-TWSVM과 비교해 정확도와 G-mean 측면에서 어떻게 성능을 내는가?
RQ4오버샘플링 단계와 가중치 최적화가 학습 시간과 확장성에 미치는 영향은 어떠한가?
RQ5제안된 방법은 선형 및 비선형 커널 설정 모두에서 기준 모델들을 일관되게 슈퍼어리어로 초월할 수 있는가?

주요 결과

WSOCP-TWSVM은 대부분의 UCI 기준 데이터 세트에서 평균 정확도와 G-mean이 가장 높았으며, 특히 Yeast3와 Pageblocks와 같은 극도로 불균형한 데이터 세트에서 뛰어난 성능을 보였다.
선형 및 비선형 커널 설정 모두에서 SOCP-TWSVM, SMOTESVM, 표준 TWSVM을 모두 능가했으며, 프리드먼 검정을 통해 통계적으로 유의미한 향상이 확인되었다.
Yeast3 및 Heberman 데이터 세트에서 WSOCP-TWSVM은 모든 다른 분류기보다 뛰어난 성능을 보였으며, 도전적인 불균형 데이터에서 강력한 일반화 능력을 입증했다.
프리드먼 검정을 통해 WSOCP-TWSVM은 여러 데이터 세트에서 정확도와 G-mean에서 1위를 기록하여 경쟁 방법들에 비해 일관되고 유의미한 슈퍼어리어티를 보였다.
오버샘플링 단계와 SOCP 해법으로 인해 학습 시간이 증가했지만, 성능 향상 덕분에 계산 오버헤드를 상쇄할 수 있었으며, 특히 극도로 불균형한 상황에서 유의미했다.
다양한 불균형 비율에서의 성능 안정성을 입증했으며, η1과 η2를 각각 0.4와 0.6으로 설정했을 때 최적의 성능를 기록했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.