QUICK REVIEW

[논문 리뷰] Explaining Explanations: An Overview of Interpretability of Machine Learning

Leilani H. Gilpin, David Bau|arXiv (Cornell University)|2018. 05. 31.

Explainable Artificial Intelligence (XAI)인용 수 30

한 줄 요약

이 논문은 딥 뉴럴 네트워크를 포함한 기계 학습에서 해석 가능성과 설명 가능성의 평가 및 표준화를 위한 통합 프레임워크를 제안한다. 설명의 분류 체계를 도입하고, 해석 가능성과 설명 가능성의 차이를 명확히 하며, 신뢰성, 공정성, 투명성을 향상시키기 위해 다면적 평가 지표의 사용을 주장한다.

ABSTRACT

There has recently been a surge of work in explanatory artificial intelligence (XAI). This research area tackles the important problem that complex machines and algorithms often cannot provide insights into their behavior and thought processes. XAI allows users and parts of the internal system to be more transparent, providing explanations of their decisions in some level of detail. These explanations are important to ensure algorithmic fairness, identify potential bias/problems in the training data, and to ensure that the algorithms perform as expected. However, explanations produced by these systems is neither standardized nor systematically assessed. In an effort to create best practices and identify open challenges, we provide our definition of explainability and show how it can be used to classify existing literature. We discuss why current approaches to explanatory methods especially for deep neural networks are insufficient. Finally, based on our survey, we conclude with suggested future research directions for explanatory artificial intelligence.

연구 동기 및 목표

해석 가능성 및 설명 가능성에 대한 표준화 부족과 체계적인 평가 부족 문제를 해결하기 위해.
모델 투명성(해석 가능성)과 시스템이 생성한 정당화(설명 가능성) 간의 차이를 명확히 하기 위해.
기계 학습에서 설명의 평가를 위한 기초 개념과 최선의 실천 방안을 수립하기 위해.
딥 뉴럴 네트워크에 특히 적용되는 현재 접근법의 격차를 특정하고 향후 연구 방향을 제안하기 위해.
AI 시스템의 신뢰성과 신뢰도를 향상시키기 위해 분야 간 협업 개발을 촉진하기 위해.

제안 방법

모델 행동, 내부 표현, 의사결정 과정 등 무엇이 설명되고 있는지에 기반한 설명의 분류 체계를 수립한다.
설명 유형, 대상 청중, 평가 방법 등의 차원을 기반으로 기존 XAI 기법을 분류하기 위한 프레임워크를 제안한다.
신뢰성, 사용자 일치도, 완전성 등을 조합한 평가 기준을 제안하여 설명 품질을 평가한다.
주의 맵, 개념 활성화 벡터(CAVs), 분리된 표현 등 기존 방법들을 비교 분석하여 해석 가능성에 대해 검토한다.
다중 모odal 평가 강조: 인간의 주의와 설명을 비교하고, 알려진 요인을 가진 합성 데이터에서 테스트하며, 인간 연구를 수행한다.
인과관계, HCI, 윤리학 등 다양한 분야의 기법을 융합하여 더 견고하고 신뢰할 수 있는 설명을 만드는 것을 주장한다.

실험 결과

연구 질문

RQ1기계 학습 시스템에서 해석 가능성과 설명 가능성은 무엇으로 구분되는가?
RQ2신뢰성, 관련성, 사용자 일치도를 고려해 설명을 어떻게 체계적으로 평가할 수 있는가?
RQ3딥 뉴럴 네트워크에 대한 현재의 설명 방법은 어떤 한계를 지니며, 특히 적대적 공격 조건에서의 인과관계 파악 및 편향 탐지 능력은 어떠한가?
RQ4다양한 평가 지표는 설명의 목적과 완전성과 어떻게 일치시킬 수 있는가?
RQ5해석 가능성 AI의 발전을 위해 필요한 다학제적 접근은 무엇인가?

주요 결과

해석 가능성과 설명 가능성은 서로 다른 개념이다: 해석 가능한 모델은 설계상 투명하지만, 모든 해석 가능한 모델이 실질적인 설명을 생성하는 것은 아니다.
현재 딥 뉴럴 네트워크를 위한 설명 방법은 종종 인과 관계를 포착하지 못하거나, 특히 적대적 조건에서 편향을 신뢰성 있게 탐지하지 못한다.
설명의 평가는 모델 행동과 본질적으로 연관되어 있다: 이성 없는 설명은 잘못된 모델이나 잘못된 설명 생성기에서 비롯될 수 있다.
설명의 신뢰성은 전이 작업(예: CAVs를 사용해 이미지 분류에서 텍스트적 단서 의존도를 탐지)을 통해 테스트할 수 있다.
사용자 기대에 부합하고 신뢰를 향상시키는지 검증하기 위해 인간 평가와 사용자 연구가 필수적이다.
자동화된 지표와 인간 평가를 융합한 다면적 평가 전략이 견고한 설명 평가를 위해 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.