QUICK REVIEW

[論文レビュー] Stochastic Optimization of Areas Under Precision-Recall Curves with Provable Convergence

Qi Qi, Youzhi Luo|arXiv (Cornell University)|Apr 18, 2021

Imbalanced Data Classification Techniques被引用数 23

ひとこと要約

本稿では、AUPRC（適合率再現率曲線下の面積）を最大化するための新しい確率的最適化フレームワーク、SOAP（Stochastic Optimization of AUPRC）を提案する。この手法は、レベル依存の内部関数を持つ非凸合成関数として平均適合率（AP）を再定式化することにより、収束が保証されるアルゴリズムを構築し、勾配の推定誤差を制御することで、収束保証付きの適応的（Adamスタイル）および非適応的（SGDスタイル）の最適化アルゴリズムを可能にする。実験では、不均衡な画像およびグラフデータセットにおいて、先行手法を上回る性能を示した。

ABSTRACT

Areas under ROC (AUROC) and precision-recall curves (AUPRC) are common metrics for evaluating classification performance for imbalanced problems. Compared with AUROC, AUPRC is a more appropriate metric for highly imbalanced datasets. While stochastic optimization of AUROC has been studied extensively, principled stochastic optimization of AUPRC has been rarely explored. In this work, we propose a principled technical method to optimize AUPRC for deep learning. Our approach is based on maximizing the averaged precision (AP), which is an unbiased point estimator of AUPRC. We cast the objective into a sum of {\\it dependent compositional functions} with inner functions dependent on random variables of the outer level. We propose efficient adaptive and non-adaptive stochastic algorithms named SOAP with {\\it provable convergence guarantee under mild conditions} by leveraging recent advances in stochastic compositional optimization. Extensive experimental results on image and graph datasets demonstrate that our proposed method outperforms prior methods on imbalanced problems in terms of AUPRC. To the best of our knowledge, our work represents the first attempt to optimize AUPRC with provable convergence. The SOAP has been implemented in the libAUC library at~\\url{https://libauc.org/}.

研究の動機と目的

深層学習におけるAUPRCのための原理的で確率的な最適化手法の不足、特に極度に不均衡なデータセットに対する課題を解決すること。
AUPRCの不偏推定量である平均適合率（AP）を直接最適化する手法を開発し、緩い条件下でも収束保証を得ること。
AP最適化における非凸的・非滑らかで取り扱いにくい勾配の課題を、二段階の確率的合成最適化問題として定式化することにより克服すること。
勾配推定誤差を制御する手法を用いて、適応的（Adamスタイル）および非適応的（SGDスタイル）の両方のアルゴリズムを設計すること。
画像およびグラフニューラルネットワークのベンチマークにおいて、クラスの不均衡下でAUPRC性能に優れるという実験的妥当性を検証すること。

提案手法

平均適合率（AP）の目的関数を、外側のレベルの確率的変数に依存する内部関数を持つ非凸合成関数の和として定式化し、確率的最適化を可能にする。
各正例ごとに2つのスカラー量を保持・更新することで、予測閾値における個々の適合率スコアの確率的勾配を推定する新しい勾配推定器を導入する。
最近の確率的合成最適化の進展を活用し、収束保証付きの適応的（SOAP-Adam）および非適応的（SOAP-SGD）アルゴリズムを導出する。
APの目的関数におけるインジケータ関数の代わりに、勾配ベースの最適化に適した代替損失関数を用いる。
勾配推定誤差を制御し、モーメンタムおよび分散項の再帰的更新を用いることで、緩い条件下でも収束を確立する。
実用的導入を可能とするために、libAUCライブラリ（https://libauc.org/）に実装されている。

実験結果

リサーチクエスチョン

RQ1深層学習モデルにおいて、収束保証付きでAUPRCを直接最大化する確率的最適化アルゴリズムを設計することは可能か？
RQ2非凸的かつ非滑らかなAP目的関数の勾配を、確率的設定で効率的に推定する方法は何か？
RQ3モデルアーキテクチャおよびデータの不均衡が、標準的な正解率最適化モデルと比較してAUPRC最適化モデルの性能に与える影響は何か？
RQ4本手法は、ミニバッチサイズの変動および極度に不均衡なデータ分布に対しても安定した性能を維持するか？
RQ5適応的最適化（Adamスタイル）をAUPRC最大化に効果的に適用でき、理論的収束保証を得られるか？

主な発見

提案されたSOAP手法は、極度に不均衡なデータを有する画像およびグラフニューラルネットワークベンチマークにおいて、先行手法を常に上回るAUPRCの向上を達成した。
特に極度のクラス不均衡状況においても、SOAPは既存のAUPRC最適化ベースラインを上回り、データの偏りに対して高いロバストネスを示した。
ミニバッチサイズに対して感受性が低く、小さなバッチでも高い性能を維持した。これは、限られたデータを有する実世界の応用にとって極めて重要である。
実験的結果により、SOAPによるAP最適化が、標準的な交差エントロピーまたは正解率ベースの学習よりも一般化性能が高く、AUPRCが向上することが確認された。
理論的分析により、緩い仮定のもとで、SOAPの適応的および非適応的バージョンの両方の収束性が確立された。これは、深層学習におけるAUPRC最適化のための最初の収束保証付き手法である。
libAUCへの実装により実用的導入が可能であり、多様な深層学習アーキテクチャおよびデータセットにおいて有効であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。