[논문 리뷰] Quantifying Interpretability and Trust in Machine Learning Systems
이 논문은 ML 의사결정의 해석가능성과 신뢰성을 측정하기 위한 정량적 지표를 제시하고, 크라우드소싱 실험과 해석가능성이 인간 생산성을 높이는 동시에 편향된 신뢰를 드러낼 수 있음을 보여준다.
Decisions by Machine Learning (ML) models have become ubiquitous. Trusting these decisions requires understanding how algorithms take them. Hence interpretability methods for ML are an active focus of research. A central problem in this context is that both the quality of interpretability methods as well as trust in ML predictions are difficult to measure. Yet evaluations, comparisons and improvements of trust and interpretability require quantifiable measures. Here we propose a quantitative measure for the quality of interpretability methods. Based on that we derive a quantitative measure of trust in ML decisions. Building on previous work we propose to measure intuitive understanding of algorithmic decisions using the information transfer rate at which humans replicate ML model predictions. We provide empirical evidence from crowdsourcing experiments that the proposed metric robustly differentiates interpretability methods. The proposed metric also demonstrates the value of interpretability for ML assisted human decision making: in our experiments providing explanations more than doubled productivity in annotation tasks. However unbiased human judgement is critical for doctors, judges, policy makers and others. Here we derive a trust metric that identifies when human decisions are overly biased towards ML predictions. Our results complement existing qualitative work on trust and interpretability by quantifiable measures that can serve as objectives for further improving methods in this field of research.
연구 동기 및 목표
- ML 결정에서 해석가능성과 신뢰를 측정할 필요성에 대한 동기 부여.
- 해석가능성 방법의 질을 정량적으로 측정하기 위한 지표를 제안.
- ML 예측에 의해 영향을 받는 편향된 인간 판단을 식별하는 신뢰 지표를 도출.
제안 방법
- 설명을 통해 인간이 ML 모델 예측을 얼마나 잘 재현하는지 포착하는 정보 전달률(information transfer rate) 기반의 지표 정의.
- 크라우드소싱 실험을 사용해 다양한 해석가능성 방법이 인간의 이해도와 성능에 어떤 영향을 미치는지 평가.
- 설명을 제공하는 것이 주석 작업에서 생산성을 두 배 이상 증가시킬 수 있음을 보여줌.
- ML 예측에 편향된 인간 판단을 탐지하기 위한 신뢰 지표를 도출.
실험 결과
연구 질문
- RQ1정량적 측정이 해석가능한 설명과 덜 해석가능한 설명을 신뢰성 있게 구분할 수 있는가?
- RQ2해석가능성이 ML 지원 작업에서 인간 의사결정의 효율성과 정확성을 향상시키는가?
- RQ3어떤 조건에서 인간은 ML 예측에 편향된 신뢰를 보이며, 이를 어떻게 정량화할 수 있는가?
주요 결과
- 제안된 정보 전달률 지표가 크라우드소싱 연구에서 해석가능성 방법을 견고하게 구분한다.
- 설명이 주석 작업에서 생산성을 크게 증가시킨다(두 배 이상 증가).
- 도출된 신뢰 지표가 인간의 결정이 ML 예측에 과도하게 편향되었는지 식별한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.