QUICK REVIEW

[논문 리뷰] Interpretability via Model Extraction

Osbert Bastani, Carolyn Kim|arXiv (Cornell University)|2017. 06. 29.

Explainable Artificial Intelligence (XAI)참고 문헌 13인용 수 92

한 줄 요약

논문은 활성 학습을 사용하여 흑상자 모델을 해석 가능한 모델(의사 결정 트리)로 근사하는 모델 추출을 제안하고, 이를 통해 랜덤 포레스트, 신경망, 강화학습 정책과 같은 복잡한 모델의 해석 및 디버깅을 가능하게 한다.

ABSTRACT

The ability to interpret machine learning models has become increasingly important now that machine learning is used to inform consequential decisions. We propose an approach called model extraction for interpreting complex, blackbox models. Our approach approximates the complex model using a much more interpretable model; as long as the approximation quality is good, then statistical properties of the complex model are reflected in the interpretable model. We show how model extraction can be used to understand and debug random forests and neural nets trained on several datasets from the UCI Machine Learning Repository, as well as control policies learned for several classical reinforcement learning problems.

연구 동기 및 목표

고위험 의사 결정에 사용되는 흑상자 모델에 대한 해석 가능한 통찰의 필요성을 자극한다.
흑상자에서 해석 가능한 모델 추출 프레임워크를 도입한다.
충분한 샘플이 있으면 추출된 해석 가능한 모델이 원래 모델을 근접하게 근사한다는 것을 보여준다.
랜덤 포레스트, 신경망, 강화학습 정책에 대해 방법을 시연한다.
디버깅, 공정성 평가, 모델 비교를 위한 사용 사례를 제공한다.

제안 방법

문제를 f에 흑상자 접근으로 해석 가능한 T를 학습하는 문제로 형식화한다.
입력 분포 P를 X_train에 축 정렬 가우시안의 혼합을 적합시켜 나타낸다.
P 아래의 제약 조건에서 노드 제약을 조건으로 P에서 n 포인트를 샘플링하여 정확한 CART 유사 이익을 사용해 T*를 정의한다.
노드 제약 하에서 P에서 n 포인트를 샘플링하여 이익을 추정하고 추정된 탐욕 트리 T를 구축한다.
n이 커짐에 따라 약한 가정하에서 추출된 트리 T가 T*로 수렴함을 증명한다.
추출된 트리 T를 UCI 데이터셋과 CartPole RL 정책에서 CART 베이스라인과 실험적으로 비교하고 해석 가능성의 이점을 입증한다.

실험 결과

연구 질문

RQ1활성 샘플링을 통해 학습된 탐욕적 축 정렬 의사 결정 트리가 흑상자 모델 f를 높은 충실도로 근사할 수 있는가?
RQ2샘플 수 n을 증가시키면 추출된 트리 T의 정확도와 실제 탐욕 트리 T*에 대한 충실도가 향상되는가?
RQ3추출된 T가 분류, 회귀, 강화학습 과제에서 CART 베이스라인과 어떻게 비교되는가?
RQ4추출된 해석 가능한 모델이 편향된 특성이나 유효하지 않은 특성에 의한 의존성 같은 문제를 진단하는 데 도움이 되는가?
RQ5추출된 트리가 학습된 제어 정책의 동작을 어느 정도까지 밝힐 수 있는가?

주요 결과

추출 방법은 모든 보고된 과제에서 CART 베이스라인보다 상대 성능이 더 높게 나타난다.
추출된 트리는 편향된 특성이나 유효하지 않은 특성에 대한 의존성을 드러내고 그 영향을 정량화할 수 있다.
CartPole 정책의 경우, 7노드의 작은 트리가 정책의 동작의 의미 있는 부분을 포착하고 방향성 편향을 드러낸다.
서브그룹 분석(예: 성별 효과)이 가능하며 모델이 민감한 속성에 의존하는 지점을 식별할 수 있다.
모델 간 비교(랜덤 포레스트 대 신경망)에서 추출된 트리가 피처 영향 패턴을 피처 중요도만으로는 드러나지 않는 방식으로 강조할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.