[논문 리뷰] Counterfactuals and Causability in Explainable Artificial Intelligence: Theory, Algorithms, and Applications
이 논문은 설명 가능한 인공지능(XAI)에서 모델에 종속되지 않는 역행적 설명에 대한 체계적 리뷰를 수행하여, 현재 알고리즘들이 공식적인 인과 이론에 기반하지 못하고 오히려 무의미한 상관관계에 의존하고 있음을 드러낸다. 저자들은 6가지 역행적 접근 방식에 기반한 새로운 분류 체계를 제안하며, 진정한 인과성의 실현을 위해 공식적인 인과 이론과의 통합이 필요하다고 주장한다. 이는 편향되거나 잘못되거나 최적화되지 않은 설명을 방지하기 위함이다.
There has been a growing interest in model-agnostic methods that can make deep learning models more transparent and explainable to a user. Some researchers recently argued that for a machine to achieve a certain degree of human-level explainability, this machine needs to provide human causally understandable explanations, also known as causability. A specific class of algorithms that have the potential to provide causability are counterfactuals. This paper presents an in-depth systematic review of the diverse existing body of literature on counterfactuals and causability for explainable artificial intelligence. We performed an LDA topic modelling analysis under a PRISMA framework to find the most relevant literature articles. This analysis resulted in a novel taxonomy that considers the grounding theories of the surveyed algorithms, together with their underlying properties and applications in real-world data. This research suggests that current model-agnostic counterfactual algorithms for explainable AI are not grounded on a causal theoretical formalism and, consequently, cannot promote causability to a human decision-maker. Our findings suggest that the explanations derived from major algorithms in the literature provide spurious correlations rather than cause/effects relationships, leading to sub-optimal, erroneous or even biased explanations. This paper also advances the literature with new directions and challenges on promoting causability in model-agnostic approaches for explainable artificial intelligence.
연구 동기 및 목표
- 기존 XAI에서의 모델에 종속되지 않는 역행적 알고리즘들이 공식적인 인과 이론에 기반하고 있는지 조사하기 위해.
- 현재의 역행적 생성 기법의 이론적 및 방법론적 기반을 식별하고 분류하기 위해.
- 현재의 역행적 설명이 진정한 인과성—즉, 인간이 이해할 수 있는 인과관계—를 반영하고 있는지, 아니면 무의미한 상관관계에 기반하고 있는지 평가하기 위해.
- 공식적인 인과 모델과 확률적 그래픽 프레임워크를 통합함으로써 XAI에서의 인과성 달성을 위한 새로운 연구 방향을 제안하기 위해.
- 현재 평가 지표의 한계를 부각하고 XAI 평가에서 사용자 중심의 표준화된 프rotocol의 필요성을 주장하기 위해.
제안 방법
- PRISMA 프레임워크를 사용하여 XAI에서의 역행적 설명과 인과성과 관련된 관련 연구를 식별하기 위해 체계적 문헌 리뷰를 수행하였다.
- 조사된 문헌의 주제적 구조를 분석하고 핵심 연구 주제를 추출하기 위해 잠재적 디리히레트 할당(Latent Dirichlet Allocation, LDA) 주제 모델링을 적용하였다.
- 6가지 이론적 접근 방식—개체 중심, 제약 조건 중심, 유전 알고리즘 중심, 회귀 중심, 게임 이론 중심, 사례 기반 추론 중심, 확률적 중심—을 기반으로 모델에 종속되지 않는 역행적 알고리즘에 대한 새로운 분류 체계를 제안하였다.
- 피어(2009)가 정의한 구조적 인과 모델(Structural Causal Models, SCMs)에 기반한 공식적인 인과 프레임워크와 기존의 역행적 알고리즘을 평가하였다.
- 객관적 수준, 기능적 수준, 사용자 수준의 지표를 구분함으로써 현재 XAI 평가의 격차를 식별하였으며, 인간 중심의 평가의 필요성을 강조하였다.
- 사용자 이해도 향상과 설득력 향상을 위해 인과성 인식 인터페이스와 상호작용 탐색 도구의 통합을 주장하였다.
실험 결과
연구 질문
- RQ1현재 XAI에서의 모델에 종속되지 않는 역행적 알고리즘은 공식적인 인과 이론에 기반하고 있는가?
- RQ2기존의 역행적 설명이 무의미한 상관관계가 아닌 진정한 인과관계를 얼마나 잘 반영하고 있는가?
- RQ3기본 이론적 기반에 기반하여 통합된 역행적 생성 방법의 분류 체계를 어떻게 구성할 수 있는가?
- RQ4특히 사용자 수준에서 XAI 시스템의 인과성 평가에 있어 주요 과제는 무엇인가?
- RQ5어떻게 하면 인과 모델을 지능형 사용자 인터페이스에 통합하여 설명 가능성과 사용자 이해도를 향상시킬 수 있는가?
주요 결과
- 현재의 모델에 종속되지 않는 역행적 알고리즘은 구조적 인과 모델과 같은 공식적인 인과 이론에 기반하지 않아, 인과관계가 아닌 상관관계에 기반한 설명을 제공한다.
- 조사된 대부분의 알고리즘이 무의미한 상관관계를 반영한 역행적 설명을 생성하여 인간 의사결정자에게 부적절하거나 잘못되거나 편향된 설명을 제공한다.
- 개체 중심, 제약 조건 중심, 유전 알고리즘 중심, 회귀 중심, 게임 이론 중심, 사례 기반 추론 중심, 확률적 중심의 6가지 유형으로 구성된 새로운 분류 체계를 개발하여 기존의 역행적 방법을 분류하였다.
- XAI 평가에서의 심각한 격차를 식별하였다: 기존의 지표인 충실도와 안정성은 설명이 진정한 인과성을 달성했는지 평가하는 데에는 부적절하다.
- 해설이 단지 이해하기 쉬운 것뿐만 아니라 인과적으로 의미 있고 신뢰할 수 있는 것을 보장하기 위해 공식적인 인과 프레임워크의 통합이 필요하다고 연구에서 주장한다.
- 인과적 추론과 상호작용 탐색을 활용하는 지능형 사용자 인터페이스는 실제 응용 분야에서 사용자 이해도 향상과 인과성 향상에 강력한 잠재력을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.