QUICK REVIEW

[論文レビュー] Cost-Sensitive Support Vector Machines

Hamed Masnadi-Shirazi, Nuno Vasconcelos|arXiv (Cornell University)|Dec 5, 2012

Imbalanced Data Classification Techniques参考文献 42被引用数 27

ひとこと要約

本稿では、クラス依存の誤分類コストを組み込むためにヒンジ損失を一般化する、SVMの新規拡張であるコストセンシティブ・サポートベクターマシン（CS-SVM）を提案する。CS-SVMをベイズ一致性のあるコストセンシティブなリスクの最小化問題として導出することで、非対称なコスト下での最適な意思決定境界を保証し、厳密な双対性および正則化解析を通じて、不均衡データおよびコストセンシティブなデータセットにおいて既存手法を上回る性能を達成する。

ABSTRACT

A new procedure for learning cost-sensitive SVM(CS-SVM) classifiers is proposed. The SVM hinge loss is extended to the cost sensitive setting, and the CS-SVM is derived as the minimizer of the associated risk. The extension of the hinge loss draws on recent connections between risk minimization and probability elicitation. These connections are generalized to cost-sensitive classification, in a manner that guarantees consistency with the cost-sensitive Bayes risk, and associated Bayes decision rule. This ensures that optimal decision rules, under the new hinge loss, implement the Bayes-optimal cost-sensitive classification boundary. Minimization of the new hinge loss is shown to be a generalization of the classic SVM optimization problem, and can be solved by identical procedures. The dual problem of CS-SVM is carefully scrutinized by means of regularization theory and sensitivity analysis and the CS-SVM algorithm is substantiated. The proposed algorithm is also extended to cost-sensitive learning with example dependent costs. The minimum cost sensitive risk is proposed as the performance measure and is connected to ROC analysis through vector optimization. The resulting algorithm avoids the shortcomings of previous approaches to cost-sensitive SVM design, and is shown to have superior experimental performance on a large number of cost sensitive and imbalanced datasets.

研究の動機と目的

クラスの不均衡や誤分類コストの非対称性が生じる状況において、SVMに原理的かつ整合的なコストセンシティブな拡張が不足している問題に対処すること。
境界シフトやバイアス付きペナルティといった既存手法の限界、特に非対称コスト下でハイパーパラメータ $ w $ としきい値 $ b $ を同時に最適に調整できない問題を克服すること。
標準のヒンジ損失を一般化し、コストセンシティブ学習をサポートする理論的根拠に基づいた一貫性のある損失関数を構築すること。
得られた分類器が、非対称なコスト下でのベイズ最適なコストセンシティブリスクを最小化することを保証し、意思決定理論に整合させる。
例依存コストを統合する統一的なフレームワークを提供し、ROC分析をベクトル最適化を介して結びつけること。

提案手法

リスク最小化と確率の誘導の間の最近の関係を用いて、標準SVMのヒンジ損失をコストセンシティブな形に拡張する。
古典的なSVM最適化問題を一般化する新しいベイズ一貫性のあるリスク関数の最小化問題として、CS-SVMを導出する。
双対問題に正則化理論および感度解析を適用し、理論的整合性とロバストネスを保証する。
クラス固有のコスト重みを用いた修正されたヒンジ損失を導入し、正例と負例のペナルティをそれぞれ $ C_1 $ および $ C_{-1} $ でスケーリングする。
共役双対性を用いて双対最適化問題を導出し、カーネル法を組み込み、等式制約を用いてバイアス項を処理する。
個々の誤分類コストをモデル化することで、例依存コストに対応するようにフレームワークを拡張し、最小リスクをROC空間におけるベクトル最適化と結びつける。

実験結果

リサーチクエスチョン

RQ1標準SVMのヒンジ損失は、ベイズ一貫性を保ちつつ、コストセンシティブ分類をサポートする形に一般化可能か？
RQ2非対称なコスト下で、ハイパーパラメータの法線 $ w $ としきい値 $ b $ を同時に最適化できるように、SVM最適化問題をどのように変更できるか？
RQ3新しいコストセンシティブ損失と、非対称な誤分類コスト下でのベイズ最適意思決定ルールとの間には、理論的にどのような関係があるか？
RQ4境界シフト法やバイアス付きペナルティ法といった既存手法と比較して、提案手法CS-SVMの性能と整合性はいかがなものか？
RQ5最小コストセンシティブリスクを、性能評価のためのROC分析と意味的に結びつけることは可能か？

主な発見

提案手法CS-SVMは、不均衡データおよびコストセンシティブなデータセットの広い範囲で、既存手法を上回る優れた実験的性能を達成する。
損失関数をコストセンシティブなベイズ意思決定ルールに一致させることで、ベイズ一貫性を確保し、最適な分類境界を保証する。
CS-SVMの双対問題は解析的に導出され、標準SVMの双対問題の一般化であることが示され、標準のQPソルバーによる解法可能性が保たれる。
損失関数の拡張とROC空間におけるベクトル最適化への接続により、例依存コストを効果的に処理する。
理論的解析により、CS-SVMは、$ w $ と $ b $ を同時に変更できないという従来手法の欠陥を、損失関数に適切に非対称コストを組み込むことで回避していることが確認された。
実験的結果により、CS-SVMは境界シフト法やバイアス付きペナルティ法を上回っており、分離不能なデータや極めて不均衡なデータ環境下でも顕著な優位性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。