[論文レビュー] Detection of Adversarial Training Examples in Poisoning Attacks through Anomaly Detection
本論文は、線形分類器における対向的な汚染例を検出するために、事前フィルタリングされた訓練データセットに対する外れ値検出の活用を提案し、最適な汚染攻撃に対する有効性を評価する。
Machine learning has become an important component for many systems and applications including computer vision, spam filtering, malware and network intrusion detection, among others. Despite the capabilities of machine learning algorithms to extract valuable information from data and produce accurate predictions, it has been shown that these algorithms are vulnerable to attacks. Data poisoning is one of the most relevant security threats against machine learning systems, where attackers can subvert the learning process by injecting malicious samples in the training data. Recent work in adversarial machine learning has shown that the so-called optimal attack strategies can successfully poison linear classifiers, degrading the performance of the system dramatically after compromising a small fraction of the training dataset. In this paper we propose a defence mechanism to mitigate the effect of these optimal poisoning attacks based on outlier detection. We show empirically that the adversarial examples generated by these attack strategies are quite different from genuine points, as no detectability constrains are considered to craft the attack. Hence, they can be detected with an appropriate pre-filtering of the training dataset.
研究の動機と目的
- 機械学習システムにおけるデータ汚染の脅威と、それが性能に与える影響を動機づける。
- 訓練パイプライン全体で外れ値検出により敵対的汚染ポイントを検出する防御を提案する。
- 汚染割合の事前知識を必要とせず、計算効率が高く、アルゴリズムに依存しない緩和戦略を提供する。
- 高次元のシナリオを含む合成データと実データセットでアプローチを評価し、最適攻撃および制約付き攻撃と比較する。
提案手法
- 攻撃者が検証目的を最大化するように汚染点を最適化する、階層最適化問題として汚染を定式化する。
- Lasso様の線形分類器に対する最適な汚染攻撃を、明示的勾配ベースの更新とKKT条件を介する含意微分を用いて記述する。
- 再訓練前に汚染点を識別しフィルタリングするため、小さな信頼済みサブセットで距離ベースの外れ値検出を適用する防御を提案する。
- 再訓練時に削除すべきサンプルを決定するため、クラス特異閾値を持つ二クラス外れ値検出器を使用する。
- 次元の呪いなどの実用的考慮事項と、検出器を訓練するための信頼済みデータの必要性について論じる。
実験結果
リサーチクエスチョン
- RQ1距離ベースの外れ値検出は、汚染攻撃の下で訓練データセットに注入された敵対的訓練例を効果的に識別できるか。
- RQ2提案された事前フィルタリングアプローチは、少数のサンプルや高次元特徴数など、さまざまなデータ状況における線形分類器に対する最適汚染戦略の影響をどう変えるか。
主な発見
- 外れ値検出は、敵対的訓練ポイントを事前フィルタリングすることにより、線形分類器に対する最適汚染戦略の影響を軽減できる。
- この防御は計算効率が高く、事前に汚染割合を知っておく必要がない。
- ラベル反転型攻撃は、提案された外れ値検出器では、最適な汚染戦略より検出が難しい。
- 訓練点数が特徴量数と同程度であっても、アプローチは有効である。
- この防御は基礎となる学習アルゴリズムに依存せず、大規模データセットにも適用可能である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。