[논문 리뷰] Distill-and-Compare: Auditing Black-Box Models Using Transparent Model Distillation
이 논문은 API 접근 없이도 레이블이 부여된 감사 데이터(위험 점수 및 참값 결과)만을 사용하여 흑상자 위험 평가 모델을 감사하는 데에 초점을 맞춘 Distill-and-Compare 방법을 제안한다. 이 방법은 흑상자 모델의 행동을 흡수하는 투명한 모방 모델을 훈련시키고, 참값 결과에 기반해 훈련된 투명한 결과 모델과 비교함으로써 편향과 누락된 특징을 드러낸다; 주요 발견 결과로는 ProPublica COMPAS 데이터가 핵심 특징을 누락하고 있을 가능성이 있으며, 모델의 정확도는 데이터 크기보다는 누락된 특징에 더 민감하다는 점이 확인되었다.
Black-box risk scoring models permeate our lives, yet are typically proprietary or opaque. We propose Distill-and-Compare, a model distillation and comparison approach to audit such models. To gain insight into black-box models, we treat them as teachers, training transparent student models to mimic the risk scores assigned by black-box models. We compare the student model trained with distillation to a second un-distilled transparent model trained on ground-truth outcomes, and use differences between the two models to gain insight into the black-box model. Our approach can be applied in a realistic setting, without probing the black-box model API. We demonstrate the approach on four public data sets: COMPAS, Stop-and-Frisk, Chicago Police, and Lending Club. We also propose a statistical test to determine if a data set is missing key features used to train the black-box model. Our test finds that the ProPublica data is likely missing key feature(s) used in COMPAS.
연구 동기 및 목표
- API나 훈련 데이터에 접근할 수 없고, 레이블이 부여된 위험 점수 및 결과 데이터만 제공될 때 흑상자 위험 평가 모델을 현실적으로 감사할 수 있는 방법을 개발하는 것.
- 감사 데이터가 흑상자 모델 훈련에 사용된 핵심 특징을 누락하고 있는지 확인하는 것.
- 흑상자 모델을 모방하는 먼 거리에서 훈련된 모방 모델과 참값 결과에 기반해 훈련된 투명한 결과 모델을 비교하여 편향과 모델 행동 양상을 드러내는 것.
- 보호된 특징(예: 인종)이 입력으로 사용되지 않더라도, 감사 과정에 포함시킴으로써 숨겨진 편향을 탐지할 수 있도록 하는 것.
제안 방법
- 흑상자 모델(선생)의 위험 점수를 평균 제곱오차 손실을 통해 예측된 점수와 실제 점수 간의 차이를 최소화하도록, 투명한 모방 모델(학생)을 훈련시켜 흑상자 모델의 행동을 흡수한다.
- 동일한 감사 데이터를 기반으로 참값 결과를 예측하기 위해 로그우도 손실을 사용해 별도의 투명한 결과 모델을 훈련시킨다.
- 두 투명 모델(모방 모델과 결과 모델) 간의 특징 중요도 및 기능 형태의 차이를 분석하여 비교한다.
- 통계적 가설 검정을 통해 감사 데이터가 흑상자 모델 훈련에 사용된 핵심 특징을 누락하고 있는지 여부를 판단한다.
- 흑상자 모델 훈련 과정에서 발생한 척도 왜곡을 보정하기 위해 위험 점수를 校정한다.
- iGAM(투명한 모델)의 개선된 신뢰구간 추정치를 적용하여 모델의 해석 가능성과 정확도를 비교한다.
실험 결과
연구 질문
- RQ1API나 훈련 데이터에 접근할 수 없고, 레이블이 부여된 위험 점수 및 결과 데이터만 제공될 때 흑상자 위험 평가 모델을 감사할 수 있는가?
- RQ2감사 데이터가 흑상자 모델 훈련 과정에 사용된 핵심 특징을 누락하고 있는가?
- RQ3먼 거리에서 훈련된 모방 모델과 참값 결과 모델 간의 차이가 흑상자 모델의 편향이나 기능적 복잡성에 어떻게 드러나는가?
- RQ4누락된 데이터나 누락된 특징은 모델 분해의 정확도에 얼마나 심각한 영향을 미치는가?
- RQ5보호된 특징(예: 인종)이 입력으로 사용되지 않더라도 투명한 모델이 편향을 탐지할 수 있는가?
주요 결과
- 통계적 검정과 낮은 모방 모델 정확도를 바탕으로 ProPublica COMPAS 데이터셋은 원래 모델에 사용된 핵심 특징을 누락하고 있을 가능성이 높다.
- COMPAS 데이터셋 기반으로 훈련된 모방 모델은 RMSE가 2.0을 기록했으며, 추가로 3,000명의 비라벨된 개인 데이터를 포함시켜도 1.98로 뿌연 개선에 그쳐 데이터 크기가 주요 문제임을 시사하지 않는다.
- 훈련 데이터를 제거했을 때 정확도 저하가 더 심각했으며(1,000명 샘플 시 RMSE가 2.1로 상승), 그러나 정확도 저하의 주요 원인은 데이터 부족기지 않고 오히려 특징 누락일 가능성이 높다.
- 선형 모방 모델이 여러 모델들(COMPAS, 챠타이코 경찰, 스톱앤프리스크)에서 iGAM과 거의 유사한 성능을 보였으며, 이는 흑상자 모델이 단순한 기능 형태를 가질 수 있음을 시사한다.
- 보호된 특징(예: 인종)이 입력으로 사용되지 않더라도 편향이 여전히 존재함을 드러내었으며, 이는 관련 특징을 통해 편향이 학습될 수 있음을 의미한다. 이는 편향 탐지의 어려움을 증가시킨다.
- 감사 과정에 보호된 특징을 포함시킴으로써, 입력에 사용되지 않더라도 편향을 탐지할 수 있음을 보여주었으며, 이는 모방 모델이 숨겨진 편향 전파를 드러낼 수 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.