QUICK REVIEW

[논문 리뷰] Actionable Interpretability Must Be Defined in Terms of Symmetries

Pietro Barbiero, Mateo Espinosa Zarlenga|arXiv (Cornell University)|2026. 01. 19.

Explainable Artificial Intelligence (XAI)인용 수 0

한 줄 요약

논문은 형식적이고 실행 가능한 해석가능성의 개념이 네 가지 대칭(추론 동등성, 정보 불변성, 개념-폐쇄 불변성, 그리고 구조적 불변성) 내에서 확률적 마코프-카테고리 프레임워크를 통해 정의될 수 있으며, 해석가능한 추론을 통합하고 안전 표준에 대한 검증을 가능하게 한다.

ABSTRACT

This paper argues that interpretability research in Artificial Intelligence (AI) is fundamentally ill-posed as existing definitions of interpretability fail to describe how interpretability can be formally tested or designed for. We posit that actionable definitions of interpretability must be formulated in terms of *symmetries* that inform model design and lead to testable conditions. Under a probabilistic view, we hypothesise that four symmetries (inference equivariance, information invariance, concept-closure invariance, and structural invariance) suffice to (i) formalise interpretable models as a subclass of probabilistic models, (ii) yield a unified formulation of interpretable inference (e.g., alignment, interventions, and counterfactuals) as a form of Bayesian inversion, and (iii) provide a formal framework to verify compliance with safety standards and regulations.

연구 동기 및 목표

현재의 해석가능성 정의가 잘못 정의되어 있고 검증 가능성이 부족하다고 주장한다.
해석가능한 모델의 형식적이고 검증 가능한 기초로 네 가지 대칭을 제안한다.
해석가능한 모델을 Markov 카테고리로 형식화하고 이를 Bayesian inversion과 연결한다.
해석가능성 내에서 정렬, 개입, 반사실적 추론을 다룰 수 있는 프레임워크를 제공한다.
안전 표준 및 규제 준수에 대한 함의를 강조한다.

제안 방법

해석가능성의 네 가지 대칭을 소개한다: inference equivariance, information invariance, concept-closure invariance, 및 structural invariance.
문자열 다이어그램을 사용하여 확률적이고 범주 이론적인(Markov category) 프레임워크 내에서 해석가능성을 모델링한다.
해석가능한 모델의 카테고리를 정의하고 개념 기반 변환을 결합하고 추론하는 방법을 보여준다.
대칭이 정렬, 개입, 반사실적 추론을 Bayesian inversion의 형태로 하나의 관점으로 이끈다는 것을 보여준다.
이 대칭들이 해석가능한 시스템의 검증 가능성과 설계 지침을 용이하게 하는 방법을 논의한다.

실험 결과

연구 질문

RQ1RQ1: 어떻게 해석가능성에 대한 비형식적 서술을 형식적으로 하나로 묶을 수 있는가?
RQ2RQ2: 압축과 정보 불변성을 통해 inference equivariance를 어떻게 계산 가능하게 만들 수 있는가?
RQ3RQ3: 개념 폐쇄 측면에서 번역이 타당하려면 무엇이 필요한가?
RQ4RQ4: 해석가능한 모델의 구조가 사용자의 가설 공간과 어떻게 정렬되어야 하는가?
RQ5RQ5: 해석가능한 모델과 그 범주 이론적 구조를 어떻게 형식화할 수 있는가?
RQ6RQ6: 인간의 개념을 모델의 개념과 어떻게 학습하고 정렬할 수 있는가?
RQ7RQ7: 해석가능한 모델이 지원하는 질의와 개입은 무엇인가?

주요 결과

해석가능성은 네 가지 대칭을 통해 형식화되어 모델 설계와 검증의 구조를 형성할 수 있다.
Inference equivariance는 합성 다이어그램을 통해 인간의 심적 모델과 모델 출력 간의 연결을 만든다.
정보 불변성은 Y에 관련된 모든 정보를 보존하는 축소 표현을 사용하여 계산 가능한 검증을 가능하게 한다.
개념 폐쇄 불변성은 번역이 개념의 의미를 보존하도록 요구하여 모델과 인간 어휘를 일치시킨다.
구조적 불변성은 해석가능성을 사용자의 인지-가설 공간과 연결시켜 모델이 사용자가 시뮬레이션할 수 있는 방식으로 작동하도록 보장한다.
이 프레임워크는 개념의 확률적 해석과 개념 공간 및 개념 기반 변환으로 구성된 해석가능한 모델의 범주를 산출한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.