Skip to main content
QUICK REVIEW

[논문 리뷰] Shedding Light on Black Box Machine Learning Algorithms: Development of an Axiomatic Framework to Assess the Quality of Methods that Explain Individual Predictions

Milo Honegger|arXiv (Cornell University)|2018. 08. 15.
Explainable Artificial Intelligence (XAI)참고 문헌 22인용 수 36
한 줄 요약

이 학위 논문은 블랙박스 기계학습 모델의 개별 예측에 대한 설명 방법의 품질을 평가하기 위한 공리적 프레임워크를 개발한다. 지역 해석 방법의 바람직한 성질을 공리의 집합으로 정형화함으로써, 이 프레임워크는 설명 품질의 체계적 평가와 비교를 가능하게 하며, 실무에서 모델의 해석 가능성 평가를 위한 원칙적인 기반을 제공한다.

ABSTRACT

From self-driving vehicles and back-flipping robots to virtual assistants who book our next appointment at the hair salon or at that restaurant for dinner - machine learning systems are becoming increasingly ubiquitous. The main reason for this is that these methods boast remarkable predictive capabilities. However, most of these models remain black boxes, meaning that it is very challenging for humans to follow and understand their intricate inner workings. Consequently, interpretability has suffered under this ever-increasing complexity of machine learning models. Especially with regards to new regulations, such as the General Data Protection Regulation (GDPR), the necessity for plausibility and verifiability of predictions made by these black boxes is indispensable. Driven by the needs of industry and practice, the research community has recognised this interpretability problem and focussed on developing a growing number of so-called explanation methods over the past few years. These methods explain individual predictions made by black box machine learning models and help to recover some of the lost interpretability. With the proliferation of these explanation methods, it is, however, often unclear, which explanation method offers a higher explanation quality, or is generally better-suited for the situation at hand. In this thesis, we thus propose an axiomatic framework, which allows comparing the quality of different explanation methods amongst each other. Through experimental validation, we find that the developed framework is useful to assess the explanation quality of different explanation methods and reach conclusions that are consistent with independent research.

연구 동기 및 목표

  • 블랙박스 기계학습 모델에서 지역 설명 방법에 대한 표준화된 평가 기준의 부족을 해결하기 위해.
  • 논리적 일관성과 신뢰성을 보장하는 공리 집합을 통해 설명 방법의 바람직한 성질을 정형화하기 위해.
  • 개별 예측에 대한 설명 품질을 평가하기 위한 체계적이고 이론 기반의 접근법을 제공하기 위해.
  • 실제 기계학습 응용 프로그램에서 강력하고 신뢰할 수 있는 설명 기법의 개발과 선택을 지원하기 위해.
  • 이론적 바람직성과 실무적 평가 간 격차를 메우기 위해.

제안 방법

  • 설명 방법에 대해 최소한이면서 필수적인 성질을 정의하는 공리적 체계를 기반으로 한 프레임워크이다.
  • 핵심 공리는 충실도, 지역 정확도, 안정성으로, 이는 설명이 예측 지점 근처에서 모델의 행동을 반영하도록 보장한다.
  • 논리적 및 정량적 검증을 통해 공리 준수 여부를 점검함으로써 설명 품질을 평가한다.
  • 각 공리를 별개로, 그리고 조합적으로 테스트하는 구조화된 평가 파이프라인을 도입한다.
  • 기존 설명 기법들(LIME, SHAP 등)에 프레임워크를 적용하여 공리 성질 준수 여부를 평가한다.
  • 형식적 논리 기반 접근법을 통해 설명 품질 평가의 엄밀성, 재현 가능성, 투명성을 확보한다.

실험 결과

연구 질문

  • RQ1신뢰할 수 있고 의미 있는 지역 설명 방법이 충족해야 할 핵심 성질은 무엇인가?
  • RQ2어떻게 개별 예측에 대한 설명의 품질을 공리적으로 정의하고 검증할 수 있는가?
  • RQ3기존의 설명 방법들인 LIME과 SHAP가 제안된 공리 기준을 어느 정도 충족하는가?
  • RQ4공리적 프레임워크가 다양한 설명 기법을 비교하기 위한 보편적 기준이 될 수 있는가?
  • RQ5공리 위반이 설명의 신뢰성과 해석 가능성에 어떤 영향을 미치는가?

주요 결과

  • 공리적 프레임워크는 기존 설명 기법에서 편미로 변화에 대한 일관성 없는 행동을 드러내는 데 성공했다.
  • LIME과 같은 방법은 안정성 공리를 위반함을 발견하여, 소규모 입력 변화에 대해 신뢰할 수 없는 설명을 제공함을 시사한다.
  • SHAP는 충실도 및 지역 정확도 공리 준수에서 더 높은 수준을 보였으며, 이는 지역 설명 품질에서의 높은 신뢰성을 시사한다.
  • 현재의 어떤 방법도 모든 공리를 완벽하게 충족하지 못함을 프레임워크가 드러내어, 향후 개선된 설명 기법의 필요성을 강조한다.
  • 공리 준수 평가 과정은 투명하고 반복 가능하며 이론에 기반한 설명 품질 평가 방법을 제공한다.
  • 연구는 공리 준수가 고위험 응용 분야에서 신뢰할 수 있는 모델 해석을 위해 필수 조건임을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.