QUICK REVIEW

[논문 리뷰] Understanding Black-box Predictions via Influence Functions

Pang Wei Koh, Percy Liang|arXiv (Cornell University)|2017. 03. 14.

Adversarial Robustness in Machine Learning참고 문헌 38인용 수 1,189

한 줄 요약

본 논문은 영향 함수(influence functions)를 재활용하여 모델의 예측을 학습 데이터로 추적하고, 주어진 예측에 가장 책임이 큰 훈련 포인트를 식별하는 확장 가능한 방법을 제공하며, 이해, 디버깅, 데이터 정리, 적대적 학습에서의 응용을 보여준다.

ABSTRACT

How can we explain the predictions of a black-box model? In this paper, we use influence functions -- a classic technique from robust statistics -- to trace a model's prediction through the learning algorithm and back to its training data, thereby identifying training points most responsible for a given prediction. To scale up influence functions to modern machine learning settings, we develop a simple, efficient implementation that requires only oracle access to gradients and Hessian-vector products. We show that even on non-convex and non-differentiable models where the theory breaks down, approximations to influence functions can still provide valuable information. On linear models and convolutional neural networks, we demonstrate that influence functions are useful for multiple purposes: understanding model behavior, debugging models, detecting dataset errors, and even creating visually-indistinguishable training-set attacks.

연구 동기 및 목표

예측 정확도를 넘어서 블랙박스 모델의 설명 가능성을 고무한다.
영향 함수를 통해 예측을 학습 데이터에 귀속시키는 방법을 제안한다.
비볼록성 및 비미분 가능성에도 불구하고 현대 모델에서 영향의 실용적 계산을 가능하게 한다.
모델 이해, 디버깅, 데이터 품질 및 적대적 훈련 등 다양한 응용을 보여준다.

제안 방법

손실의 기울기에 대한 해시안 역(Hessian inverse)을 곱해 훈련 예제를 가중치 증가시키거나 섭동시키는 것이 모델 매개변수에 미치는 영향을 형식화한다.
테스트 로스에 대한 영향과 훈련 입력이나 레이블의 섭동에 대한 닫힌 형식의 해를 도출한다.
명시적 해시안 역의 역전을 사용하지 않고도 H^{-1} 기울기를 계산하기 위해 효율적인 해시안-벡터 곱과 함께 공액 그래디언트(CG) 또는 확률적 추정을 사용한다.
감쇠(damping) 및 스무딩(smoothing) 기법으로 비볼록성 및 비미분 가능 설정을 다루고, leave-one-out 재훈련과의 정확도로 유효성을 검증한다.
자동 미분 프레임워크를 통해 영향력을 계산하기 위한 실용적 방법을 제시한다.

실험 결과

연구 질문

RQ1깊은 네트워크에서 영향 함수가 주어진 예측에 가장 책임이 큰 훈련 포인트를 정확히 식별할 수 있는가?
RQ2현대 모델에 대해 영향 함수를 대규모로 얼마나 효율적으로 계산할 수 있는가?
RQ3볼록성이나 미분가능성 가정이 실패할 때도 영향 함수가 여전히 정보력을 가지는가?
RQ4영향 함수가 디버깅, 데이터 품질 검사, 그리고 적대적 학습 데이터에 사용될 수 있는가?
RQ5영향 지표를 사용해 서로 다른 모델을 비교할 때 모델의 동작에 어떤 통찰이 나타나는가?

주요 결과

영향 함수는 로지스틱 회귀와 MNIST 및 유사한 작업에서 leave-one-out 재훈련으로 인한 예측 변화와 근접하게 근사한다.
해시안-벡터 곱을 이용한 영향 계산은 추가적인 소표본 추정기로 O(np)에서 훈련 포인트의 영향 순위를 매길 수 있게 하며, 확률적 방법과 CG 방법이 실용적인 속도 향상을 제공한다.
Influence는 모델이 학습 데이터에 의존하는 방식과 입력 공간에서의 단순한 근접성 차이를 구분하는 데 도움을 주며, 예측 설명에서 최근접 이웃 직관을 능가한다.
비미분 가능 손실(예: 힌지 손실)을 스무딩하면 정확한 영향 추정치를 얻고, 비볼록성은 감쇠(damping)로 완화될 수 있다.
영향 함수에 의해 안내된 학습 세트 섭동은 테스트 예측을 뒤집는 시각적으로 구별하기 어려운 적대적 학습 예제를 만들 수 있어 보안상의 고려사항을 부각한다.
영향 함수가 도메인 불일치 원인과 잘못 표기된 데이터를 성공적으로 식별하여 디버깅 및 데이터 정리에 도움을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.