QUICK REVIEW

[논문 리뷰] Auditing Black-Box Models Using Transparent Model Distillation With Side Information

Sarah Tan, Rich Caruana|arXiv (Cornell University)|2017. 10. 17.

Explainable Artificial Intelligence (XAI)참고 문헌 34인용 수 15

한 줄 요약

이 논문은 지식 정련을 통해 블랙박스 리스크 스코링 모델을 감시하기 위한 Distill-and-Compare 방법을 제안한다. 이 방법은 투명한 학생 모델을 블랙박스 모델의 예측을 모방하도록 훈련시킨 후, 실제 결과에 기반해 훈련된 투명한 모델과 비교한다. 이 접근법은 잠재적 편향이나 누락된 특징을 나타내는 이질성을 드러내며, 원래 모델에서 사용된 핵심 특징들이 누락된 것으로 보이는 프로파블리카 COMPAS 데이터를 특정한다.

ABSTRACT

Black-box risk scoring models permeate our lives, yet are typically proprietary or opaque. We propose Distill-and-Compare, a model distillation and comparison approach to audit such models. To gain insight into black-box models, we treat them as teachers, training transparent student models to mimic the risk scores assigned by black-box models. We compare the student model trained with distillation to a second un-distilled transparent model trained on ground-truth outcomes, and use differences between the two models to gain insight into the black-box model. Our approach can be applied in a realistic setting, without probing the black-box model API. We demonstrate the approach on four public data sets: COMPAS, Stop-and-Frisk, Chicago Police, and Lending Club. We also propose a statistical test to determine if a data set is missing key features used to train the black-box model. Our test finds that the ProPublica data is likely missing key feature(s) used in COMPAS.

연구 동기 및 목표

내부 논리나 API에 직접 접근하지 않고도 비공개, 독점적인 리스크 스코링 모델을 감시할 수 있는 방법을 개발하는 것.
블랙박스 모델을 훈련하거나 평가하는 데 사용된 공개 데이터셋이 핵심 예측 특징을 누락하고 있는지 확인하는 것.
정련된 학생 모델과 실제 결과에 기반한 투명한 모델을 비교함으로써 블랙박스 모델의 행동에 대한 해석 가능한 통찰을 제공하는 것.
블랙박스 모델을 직접 조사할 수 없는 현실적인 환경에서도 감시가 가능하도록 하는 것.

제안 방법

지식 정련을 통해 블랙박스 모델이 생성한 리스크 스코어를 모방하도록 투명한 학생 모델을 훈련시키는 것.
블랙박스 모델의 예측을 사용하지 않고 실제 결과에 기반해 투명한 모델을 직접 훈련시키는 것.
통계적 기법과 모델 해석 기법을 사용해 정련된 모델과 실제 결과 모델 간의 차이를 비교하여 이질성을 탐지하는 것.
정련된 모델과 실제 결과 모델 간의 차이를 분석해 블랙박스 모델 내 잠재적 편향이나 특징 누락을 추론하는 것.
블랙박스 모델 훈련에 사용된 핵심 특징들이 누락되었는지 확인하기 위해 통계적 검정을 적용하는 것.
실제 세계의 네 가지 데이터셋인 COMPAS, Stop-and-Frisk, 찰리코 경찰, Lending Club에 이 방법을 적용하여 효과를 검증하는 것.

실험 결과

연구 질문

RQ1내부 구조나 API에 접근하지 않고도 블랙박스 리스크 모델을 감시할 수 있는가?
RQ2정련된 학생 모델과 실제 결과 투명 모델 간의 이질성이 블랙박스 모델의 편향이나 결함을 어떻게 드러내는가?
RQ3블랙박스 모델을 훈련하거나 평가하는 데 사용된 데이터셋이 핵심 예측 특징을 누락하고 있는가?
RQ4정련 기반 감시 방법이 실제 리스크 스코링 시스템에서 특징 누락을 얼마나 잘 탐지할 수 있는가?
RQ5통계적 검정을 통해 원래 블랙박스 모델 훈련에 사용된 특징들이 누락된 데이터셋을 탐지할 수 있는가?

주요 결과

정련된 모델과 실제 결과 모델 간의 유의미한 통계적 이질성으로 인해, 프로파블리카 COMPAS 데이터셋이 원래 모델 훈련에 사용된 핵심 특징들을 누락하고 있을 가능성이 높다.
Distill-and-Compare 방법은 블랙박스 모델 내 특징 누락이나 편향을 시사하는 모델 행동의 차이를 성공적으로 식별한다.
이 방법은 블랙박스 모델의 API를 조사하지 않아도 되므로, 제한된 접근 조건이 있는 현실적인 환경에 적용 가능하다.
이 접근법은 정련 기반 학생 모델이 실제 결과 모델과 비교했을 때 블랙박스 예측의 구조적 비일관성을 드러낼 수 있음을 보여준다.
특징 누락 여부를 확인하는 통계적 검정이 성공적으로 COMPAS 데이터셋이 불완전하다고 경고하여, 공개된 데이터셋이 원래 훈련 데이터를 충분히 반영하지 못하고 있을 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.