QUICK REVIEW

[논문 리뷰] Distill-and-Compare: Auditing Black-Box Models Using Transparent Model Distillation

Sarah Tan, Rich Caruana|arXiv (Cornell University)|2017. 10. 17.

Adversarial Robustness in Machine Learning참고 문헌 9인용 수 24

한 줄 요약

이 논문은 API 접근 없이도 레이블이 부여된 감사 데이터(위험 점수 및 참값 결과)만을 사용하여 흑상자 위험 평가 모델을 감사하는 데에 초점을 맞춘 Distill-and-Compare 방법을 제안한다. 이 방법은 흑상자 모델의 행동을 흡수하는 투명한 모방 모델을 훈련시키고, 참값 결과에 기반해 훈련된 투명한 결과 모델과 비교함으로써 편향과 누락된 특징을 드러낸다; 주요 발견 결과로는 ProPublica COMPAS 데이터가 핵심 특징을 누락하고 있을 가능성이 있으며, 모델의 정확도는 데이터 크기보다는 누락된 특징에 더 민감하다는 점이 확인되었다.

ABSTRACT

Black-box risk scoring models permeate our lives, yet are typically proprietary or opaque. We propose Distill-and-Compare, a model distillation and comparison approach to audit such models. To gain insight into black-box models, we treat them as teachers, training transparent student models to mimic the risk scores assigned by black-box models. We compare the student model trained with distillation to a second un-distilled transparent model trained on ground-truth outcomes, and use differences between the two models to gain insight into the black-box model. Our approach can be applied in a realistic setting, without probing the black-box model API. We demonstrate the approach on four public data sets: COMPAS, Stop-and-Frisk, Chicago Police, and Lending Club. We also propose a statistical test to determine if a data set is missing key features used to train the black-box model. Our test finds that the ProPublica data is likely missing key feature(s) used in COMPAS.

연구 동기 및 목표

API나 훈련 데이터에 접근할 수 없고, 레이블이 부여된 위험 점수 및 결과 데이터만 제공될 때 흑상자 위험 평가 모델을 현실적으로 감사할 수 있는 방법을 개발하는 것.
감사 데이터가 흑상자 모델 훈련에 사용된 핵심 특징을 누락하고 있는지 확인하는 것.
흑상자 모델을 모방하는 먼 거리에서 훈련된 모방 모델과 참값 결과에 기반해 훈련된 투명한 결과 모델을 비교하여 편향과 모델 행동 양상을 드러내는 것.
보호된 특징(예: 인종)이 입력으로 사용되지 않더라도, 감사 과정에 포함시킴으로써 숨겨진 편향을 탐지할 수 있도록 하는 것.

제안 방법

흑상자 모델(선생)의 위험 점수를 평균 제곱오차 손실을 통해 예측된 점수와 실제 점수 간의 차이를 최소화하도록, 투명한 모방 모델(학생)을 훈련시켜 흑상자 모델의 행동을 흡수한다.
동일한 감사 데이터를 기반으로 참값 결과를 예측하기 위해 로그우도 손실을 사용해 별도의 투명한 결과 모델을 훈련시킨다.
두 투명 모델(모방 모델과 결과 모델) 간의 특징 중요도 및 기능 형태의 차이를 분석하여 비교한다.
통계적 가설 검정을 통해 감사 데이터가 흑상자 모델 훈련에 사용된 핵심 특징을 누락하고 있는지 여부를 판단한다.
흑상자 모델 훈련 과정에서 발생한 척도 왜곡을 보정하기 위해 위험 점수를 校정한다.
iGAM(투명한 모델)의 개선된 신뢰구간 추정치를 적용하여 모델의 해석 가능성과 정확도를 비교한다.

실험 결과

연구 질문

RQ1API나 훈련 데이터에 접근할 수 없고, 레이블이 부여된 위험 점수 및 결과 데이터만 제공될 때 흑상자 위험 평가 모델을 감사할 수 있는가?
RQ2감사 데이터가 흑상자 모델 훈련 과정에 사용된 핵심 특징을 누락하고 있는가?
RQ3먼 거리에서 훈련된 모방 모델과 참값 결과 모델 간의 차이가 흑상자 모델의 편향이나 기능적 복잡성에 어떻게 드러나는가?
RQ4누락된 데이터나 누락된 특징은 모델 분해의 정확도에 얼마나 심각한 영향을 미치는가?
RQ5보호된 특징(예: 인종)이 입력으로 사용되지 않더라도 투명한 모델이 편향을 탐지할 수 있는가?

주요 결과

통계적 검정과 낮은 모방 모델 정확도를 바탕으로 ProPublica COMPAS 데이터셋은 원래 모델에 사용된 핵심 특징을 누락하고 있을 가능성이 높다.
COMPAS 데이터셋 기반으로 훈련된 모방 모델은 RMSE가 2.0을 기록했으며, 추가로 3,000명의 비라벨된 개인 데이터를 포함시켜도 1.98로 뿌연 개선에 그쳐 데이터 크기가 주요 문제임을 시사하지 않는다.
훈련 데이터를 제거했을 때 정확도 저하가 더 심각했으며(1,000명 샘플 시 RMSE가 2.1로 상승), 그러나 정확도 저하의 주요 원인은 데이터 부족기지 않고 오히려 특징 누락일 가능성이 높다.
선형 모방 모델이 여러 모델들(COMPAS, 챠타이코 경찰, 스톱앤프리스크)에서 iGAM과 거의 유사한 성능을 보였으며, 이는 흑상자 모델이 단순한 기능 형태를 가질 수 있음을 시사한다.
보호된 특징(예: 인종)이 입력으로 사용되지 않더라도 편향이 여전히 존재함을 드러내었으며, 이는 관련 특징을 통해 편향이 학습될 수 있음을 의미한다. 이는 편향 탐지의 어려움을 증가시킨다.
감사 과정에 보호된 특징을 포함시킴으로써, 입력에 사용되지 않더라도 편향을 탐지할 수 있음을 보여주었으며, 이는 모방 모델이 숨겨진 편향 전파를 드러낼 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.