QUICK REVIEW

[論文レビュー] On the Consistency of AUC Pairwise Optimization

Wei Gao, Zhi‐Hua Zhou|arXiv (Cornell University)|Aug 3, 2012

Imbalanced Data Classification Techniques参考文献 42被引用数 37

ひとこと要約

本稿は、AUCのペアワイズ最適化の一貫性に関する新たな十分条件を確立し、指数関数的、ロジスティック的、距離重み付き損失がAUCと一貫していることを証明している。さらに、レグルートバウンド解析を通じて、無限標本極限におけるAdaBoostとRankBoostの同等性を明らかにし、ランク付けとブースティングアルゴリズムにおける長年の理論的問いを解決している。

ABSTRACT

AUC (area under ROC curve) is an important evaluation criterion, which has been popularly used in many learning tasks such as class-imbalance learning, cost-sensitive learning, learning to rank, etc. Many learning approaches try to optimize AUC, while owing to the non-convexity and discontinuousness of AUC, almost all approaches work with surrogate loss functions. Thus, the consistency of AUC is crucial; however, it has been almost untouched before. In this paper, we provide a sufficient condition for the asymptotic consistency of learning approaches based on surrogate loss functions. Based on this result, we prove that exponential loss and logistic loss are consistent with AUC, but hinge loss is inconsistent. Then, we derive the $q$-norm hinge loss and general hinge loss that are consistent with AUC. We also derive the consistent bounds for exponential loss and logistic loss, and obtain the consistent bounds for many surrogate loss functions under the non-noise setting. Further, we disclose an equivalence between the exponential surrogate loss of AUC and exponential surrogate loss of accuracy, and one straightforward consequence of such finding is that AdaBoost and RankBoost are equivalent.

研究の動機と目的

AUCの非凸性のため、一般的に使用されるペアワイズ代替損失によるAUC最適化の理論的不整合を解消すること。
ハッチンや絶対損失のような特定のキャリブレーションされた損失が、キャリブレーション条件を満たしてもAUCと一貫しない理由を明確にすること。
ペアワイズ最適化におけるキャリブレーションと実際の一貫性を区別する新たな十分条件を確立すること。
実現可能設定下で、指数関数的およびロジスティック的損失のリスクバウンドを導出し、AUCと正答率最適化を結びつけること。
代替損失の同等性を介して、無限標本極限におけるAdaBoostとRankBoostの理論的同等性を示すこと。

提案手法

ペアワイズ代替損失最適化におけるAUC一貫性のための必要条件である一般化キャリブレーションを導入するが、これは十分ではないことを示す。
インスタンスペアの期待リスクと条件付きリスクの関係に基づく、AUC一貫性の新たな十分条件を提案する。
不等式 $(ab - cd)^2 \leq a^2(b-d)^2 + d^2(a-c)^2$ を用いて、AUCと正答率の代替損失の間のリスクバウンドを導出する。
変換 $t_f^* = \frac{1}{2} \ln \left( \frac{E_x[\eta(x)e^{-f(x)}]}{E_x[(1-\eta(x))e^{f(x)}]} \right)$ を適用し、AUCと正答率の代替リスクを一致させる。
AUCのペアワイズ指数関数的代替損失が適切なしきい値設定下で、正答率の指数関数的代替損失と同等であることを示すリスクバウンドを導出する。
新たに提示された十分条件を用いて、指数関数的、ロジスティック的、距離重み付き、$q$-ノルムハッチン、一般化ハッチン損失の一貫性を証明する。

実験結果

リサーチクエスチョン

RQ1なぜハッチンや絶対損失のようなキャリブレーションされた代替損失が、キャリブレーション条件を満たしてもAUCと一貫しないのか？
RQ2ペアワイズ最適化におけるAUC一貫性を保証するためには、キャリブレーションに加えてどのような追加条件が必要か？
RQ3無限標本極限において、AdaBoostとRankBoostの同等性を理論的に正当化できるか？
RQ4AUCの代替損失のリスクバウンドは、正答率ベースの損失のそれとどのように関係するか？
RQ5新しい十分条件の下で、どの代替損失がAUCと実際に一貫していると証明できるか？

主な発見

一般化キャリブレーションはAUC一貫性に必要であるが、十分ではない。ハッチン損失や絶対損失がキャリブレーションを満たしても一貫しないことから明らかである。
新たに提示された十分条件を用いて、指数関数的、ロジスティック的、距離重み付き損失がAUCと一貫していることが証明された。
$q$-ノルムハッチン損失と一般化ハッチン損失が導出され、AUCと一貫していることが示された。
指数関数的およびロジスティック的損失のリスクバウンドが確立され、AUCのペアワイズ代替損失が適切なしきい値設定下で正答率の指数関数的代替損失と同等であることが示された。
リスクバウンド解析を通じて、無限標本極限におけるAdaBoostとRankBoostの同等性が形式的に証明された。
理論的知見を基に、1パス効率と優れた性能を有する、OPAUCアルゴリズムが開発された。このアルゴリズムは、ペアワイズ最小二乗損失を用いてAUCを最適化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。