[論文レビュー] Boosting Randomized Smoothing with Variance Reduced Classifiers
本論文は、ベース分類器としてのモデルアンサンブルを活用することで、予測の分散を低減し、CIFAR10およびImageNetで5–21%の認証可能半径の向上を達成する、分散低減型アンサンブル手法を提案する。この手法により、ランダムスムージング(RS)の保証可能ロバストネスが顕著に向上し、それぞれCIFAR10で0.86、ImageNetで1.11の最先端(SOTA)ACRを達成した。また、適応的サンプリングを導入することで、サンプルの複雑さを最大55倍まで低減した。
Randomized Smoothing (RS) is a promising method for obtaining robustness certificates by evaluating a base model under noise. In this work, we: (i) theoretically motivate why ensembles are a particularly suitable choice as base models for RS, and (ii) empirically confirm this choice, obtaining state-of-the-art results in multiple settings. The key insight of our work is that the reduced variance of ensembles over the perturbations introduced in RS leads to significantly more consistent classifications for a given input. This, in turn, leads to substantially increased certifiable radii for samples close to the decision boundary. Additionally, we introduce key optimizations which enable an up to 55-fold decrease in sample complexity of RS for predetermined radii, thus drastically reducing its computational overhead. Experimentally, we show that ensembles of only 3 to 10 classifiers consistently improve on their strongest constituting model with respect to their average certified radius (ACR) by 5% to 21% on both CIFAR10 and ImageNet, achieving a new state-of-the-art ACR of 0.86 and 1.11, respectively. We release all code and models required to reproduce our results at https://github.com/eth-sri/smoothing-ensembles.
研究の動機と目的
- アンサンブルがランダムスムージングにおける分散を低減し、より高い認証可能ロバストネスをもたらすことを理論的および実験的に示すこと。
- RS認証の高い計算コストを解消するため、サンプル複雑さを低減する適応的サンプリングスキームを導入すること。
- 最も不確実なサンプルにのみ完全なアンサンブル評価を延期するK-consensus集約メカニズムを構築すること。
- さまざまな設定下で、ImageNetやCIFAR10を含む複数のベンチマークで最先端の認証精度を達成すること。
- 効率的かつスケーラブルなディープニューラルネットワークの認証を統計的に妥当かつデータ依存的に可能にするフレームワークを提供すること。
提案手法
- 入力ノイズ下での予測の一貫性を向上させるために、モデルアンサンブルの分散低減特性を活用するソフトアンサンブル方式を提案する。
- 初期の予測信頼度に基づき、段階的に増加するサンプル数を用いる、適応的サンプリング戦略を導入する。
- 一部のベースモデルが合意しない場合にのみ、完全なアンサンブル評価を実行するK-consensus集約メカニズムを採用する。
- ベータ=二項分布モデリングに基づく統計的停止ルールを用い、高い信頼度でサンプリングを停止するタイミングを決定する。
- 標準スムージングおよびデノイズドスムージングの両方の設定に適用し、多様な訓練環境下でもロバストネスを示す。
- 二段階の認証プロセスを採用する:まず小規模な初期サンプルセットを用いてクラス確率を推定し、次に信頼度が不十分な場合にのみ追加サンプルを取得する。
実験結果
リサーチクエスチョン
- RQ1モデルアンサンブルは、ランダムスムージングにおける分散を顕著に低減し、より高い認証可能ロバストネスをもたらすか?
- RQ2適応的サンプリングは、信頼度を損なわずにRS認証のサンプル複雑さを低減できるか?
- RQ3アンサンブルサイズおよび訓練手法の影響は、認証可能半径および精度にどのような影響を及えるか?
- RQ4K-consensus集約は、高い認証精度を維持しつつ、計算効率をどのように向上させるか?
- RQ5提案手法は、標準およびデノイズドスムージングの両設定下で、ImageNetおよびCIFAR10で最先端の認証精度を達成できるか?
主な発見
- CIFAR10では、3~10個のResNet110モデルのアンサンブルにより、最も強力な個別モデルに比べて平均認証可能半径(ACR)が5%~21%向上し、SOTAのACR 0.86を達成した。
- ImageNetでは、3~10個のモデルアンサンブルを用いて、SOTAのACR 1.11を達成し、個別モデルを著しく上回った。
- 適応的サンプリングスキームにより、均一サンプリングに比べて平均認証時間は最大55倍短縮され、精度の損失は最小限に抑えられた。
- K-consensus集約により、ResNet20では全アンサンブル評価がサンプルの1.00%に、ResNet110では0.00%にまで削減され、計算負荷が著しく低減された。
- 一貫性に基づくサンプリング戦略は、ガウス分布サンプリングよりも高い認証精度を達成した。特に大きな半径領域では、より優れた初期停止意思決定が可能だった。
- 異なる訓練手法や摂動レベルに対しても高い性能を維持したため、本手法はロバストネスと一般化能力に優れていることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。