Skip to main content
QUICK REVIEW

[論文レビュー] Deep k-Nearest Neighbors: Towards Confident, Interpretable and Robust Deep Learning

Nicolas Papernot, Patrick McDaniel|arXiv (Cornell University)|Mar 13, 2018
Adversarial Robustness in Machine Learning参考文献 88被引用数 368
ひとこと要約

本研究は Deep k-Nearest Neighbors (DkNN) を提案する。これは DNN の層ごとの最近傍を利用して、conformal prediction を介し、信頼性、解釈性、頑健性(対抗的入力を含む)を提供するハイブリッド分類器である。

ABSTRACT

Deep neural networks (DNNs) enable innovative applications of machine learning like image recognition, machine translation, or malware detection. However, deep learning is often criticized for its lack of robustness in adversarial settings (e.g., vulnerability to adversarial inputs) and general inability to rationalize its predictions. In this work, we exploit the structure of deep learning to enable new learning-based inference and decision strategies that achieve desirable properties such as robustness and interpretability. We take a first step in this direction and introduce the Deep k-Nearest Neighbors (DkNN). This hybrid classifier combines the k-nearest neighbors algorithm with representations of the data learned by each layer of the DNN: a test input is compared to its neighboring training points according to the distance that separates them in the representations. We show the labels of these neighboring points afford confidence estimates for inputs outside the model's training manifold, including on malicious inputs like adversarial examples--and therein provides protections against inputs that are outside the models understanding. This is because the nearest neighbors can be used to estimate the nonconformity of, i.e., the lack of support for, a prediction in the training data. The neighbors also constitute human-interpretable explanations of predictions. We evaluate the DkNN algorithm on several datasets, and show the confidence estimates accurately identify inputs outside the model, and that the explanations provided by nearest neighbors are intuitive and useful in understanding model failures.

研究の動機と目的

  • DNN のモジュール的表現を活用して、すべての層で訓練データに対する予測の適合性を評価する。
  • 訓練マニホールドへの非適合性を反映する信頼性のある自信度を提供する。
  • 予測を説明する訓練例を開示することで解釈性を向上させる。
  • ネットワーク内の複数の表現を横断して適合性のない予測を検出することで対抗的入力に対する頑健性を高める。

提案手法

  • テスト入力に対して、訓練済み DNN が生成する l 層表現を計算する。
  • 各層で、 locality-sensitive hashing (LSH) を用いて k 個の最近傍の訓練表現を見つける。
  • 各層での k 個の最近傍のラベルを Ωλ の多重集合として収集する。
  • conformal prediction を用いて Ωλ および calibration data に基づく非適合度 α(x,j) を計算する。
  • 各クラス j に対して p-values p_j(z) を計算し、最も高い p-value を持つ予測と対応する信頼度と信用度を出力する。

実験結果

リサーチクエスチョン

  • RQ1DNN の層ごとの表現をどのように用いて、予測が訓練データとどの程度適合しているかを評価できるか。
  • RQ2訓練マニホールドへの非適合性を反映する信頼度を正則化された形で生成できるか。
  • RQ3層ごとの最近傍の説明は解釈性を向上させ、対抗的または外れ値入力を検出するのに役立つか。
  • RQ4このアプローチは、ネットワーク内の複数の表現を横断して予測を支持することにより頑健性を高めるか。

主な発見

  • DkNN は、訓練マニホールドから遠い入力を標準的な DNN の信頼度よりもよく識別する信頼性推定を生み出す。
  • 外部分布入力または幾何的に変換された入力で、DkNN の信頼性は 10% 未満になるのに対し、DNN は 20%–50% となる。
  • 最近傍の説明は、層を跨いで直感的で人間にも理解可能な予測を提供する。
  • DkNN は低い信用度により対抗的な例を識別し、適応的攻撃はしばしば予測を変えるためには入力意味を攪乱する必要がある。
  • 訓練マニホールドが層を跨いでサポートされている場合、予測の整合性が保たれ、頑健性と解釈性が示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。