QUICK REVIEW

[논문 리뷰] Beyond Individualized Recourse: Interpretable and Interactive Summaries of Actionable Recourses

Kaivalya Rawal, Himabindu Lakkaraju|arXiv (Cornell University)|2020. 09. 15.

Explainable Artificial Intelligence (XAI)참고 문헌 36인용 수 24

한 줄 요약

이 논문은 행동 가능한 복귀 요약(Actionable Recourse Summaries, AReS)을 소개한다. AReS는 하위집단에 대한 단순한 규칙 집합을 학습하여 전체 인구 집단에 대해 전역적이고 해석 가능하며 비용 효율적인 역행성 설명을 생성하는 모델에 종속되지 않는 프레임워크이다. 이는 의사결정자가 배포 이전에 기계학습 모델의 편향과 차별을 탐지할 수 있도록 도와주며, 사용자 연구에서 개인적 복귀 방법보다 편향 탐지 및 기술 측면에서 뛰어난 성능을 보였다.

ABSTRACT

As predictive models are increasingly being deployed in high-stakes decision-making, there has been a lot of interest in developing algorithms which can provide recourses to affected individuals. While developing such tools is important, it is even more critical to analyse and interpret a predictive model, and vet it thoroughly to ensure that the recourses it offers are meaningful and non-discriminatory before it is deployed in the real world. To this end, we propose a novel model agnostic framework called Actionable Recourse Summaries (AReS) to construct global counterfactual explanations which provide an interpretable and accurate summary of recourses for the entire population. We formulate a novel objective which simultaneously optimizes for correctness of the recourses and interpretability of the explanations, while minimizing overall recourse costs across the entire population. More specifically, our objective enables us to learn, with optimality guarantees on recourse correctness, a small number of compact rule sets each of which capture recourses for well defined subpopulations within the data. We also demonstrate theoretically that several of the prior approaches proposed to generate recourses for individuals are special cases of our framework. Experimental evaluation with real world datasets and user studies demonstrate that our framework can provide decision makers with a comprehensive overview of recourses corresponding to any black box model, and consequently help detect undesirable model biases and discrimination.

연구 동기 및 목표

기계학습 모델의 배포 이전에 감사하기 위한 전역적이고 해석 가능한 행동 가능한 복귀 방법의 요약이 부족한 문제를 해결하기 위해.
의사결정자가 민감한 속성(예: 인종 또는 성별)에 의해 정의된 하위집단 간 복귀 방법의 차이를 분석할 수 있도록 하기 위해.
전체 인구 집단에서 복귀의 정확성, 해석 가능성, 전체 복귀 비용을 동시에 최적화하기 위해.
모델 행동에서 차별적인 패턴을 탐지하고 강조함으로써 공정성 감사를 지원하는 프레임워크를 제공하기 위해.
개인 수준의 복귀 방법에 한계가 있어 고차원적 모델 검토나 편향 탐지에 기여하지 못하는 문제를 해결하기 위해.

제안 방법

복귀 정확성, 해석 가능성, 전역적 복귀 비용 최소화를 균형 잡는 새로운 최적화 목표를 제안한다.
모델에 종속되지 않는 접근 방식을 사용하여 잘 정의된 하위집단에 대한 복귀를 포괄하는 단순한 규칙 집합을 학습한다.
실수값 비용 함수에 의존하지 않도록, 특성 간의 쌍별 비교에서 복귀 비용을 학습하기 위해 Bradley-Terry 모델을 활용한다.
사용자가 정의한 하위집단(예: 인종 기반)과 클러스터링 또는 규칙 추출을 통해 자동으로 발견된 하위집단을 모두 지원한다.
제약 최적화를 통한 복귀 정확성 최적화 보장을 하위모듈러 및 비음수 비용 함수와 결합한다.
외부 if 조건이 하위집단을 정의하고 내부 if-then 규칙이 행동 가능한 복귀 조치를 지정하는 상호작용적이고 시각화 가능한 요약을 제공한다.

실험 결과

연구 질문

RQ1기계학습 모델의 배포 이전에 감사할 수 있도록 의사결정자가 사용할 수 있는 전역적이고 해석 가능한 복귀 방법의 요약을 구성할 수 있는가?
RQ2특히 민감한 속성(예: 인종 또는 성별)에 의해 정의된 하위집단 간 복귀 패턴은 어떻게 다른가?
RQ3일관된 프레임워크가 복귀 정확성, 해석 가능성, 비용 효율성을 동시에 최적화할 수 있는가?
RQ4사용자들이 개인 수준의 복귀 설명보다 전역 요약을 통해 모델 편향을 탐지하는 데 얼마나 효과적인가?
RQ5이 프레임워크는 블랙박스 모델 내부의 숨겨진 편향을 탐지하고 드러내는 데 어느 정도의 정도까지 기여하는가?

주요 결과

사용자 연구에서 AReS를 사용한 참가자 중 88.9%가 인종적 편향이 있는 모델의 편향을 탐지했으며, 집합된 개인적 복귀 방법(AR-LIME)을 사용한 경우는 44.4%에 그쳤다.
AReS를 사용한 참가자 중 평균 55.6%가 편향의 성격을 정확히 기술했으며, AR-LIME를 사용한 경우는 11.1%에 그쳤다.
3층 신경망에 인종적 편향을 삽입한 실험에서 AReS는 편향 탐지(88.9% 대 44.4%)와 편향 기술(55.6% 대 11.1%) 모두에서 AR-LIME를 능가했다.
유사한 편향을 가진 로지스틱 회귀 모델에 대해서는 AReS와 AR-LIME가 편향 탐지에서는 유사한 성능(각각 88.9%)을 보였지만, 편향 기술에서는 AReS가 유의미하게 우수한 성능(66.7% 대 44.4%)을 보였다.
이 프레임워크는 개인 수준의 복귀 생성에서도 최신 기준 수준의 베이스라인과 유사한 성능을 유지한다.
결과는 AReS가 매우 해석 가능하고 정확한 전역 요약을 제공하여 모델 행동에서의 차별적 패턴을 효과적으로 드러낸다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.