Skip to main content
QUICK REVIEW

[论文解读] Actionable Interpretability Must Be Defined in Terms of Symmetries

Pietro Barbiero, Mateo Espinosa Zarlenga|arXiv (Cornell University)|Jan 19, 2026
Explainable Artificial Intelligence (XAI)被引用 0
一句话总结

论文主张通过四个对称性(推理等变、信息不变、概念闭包不变、结构不变)在概率Markov范畴框架中定义一个形式化、可操作的解释性概念,从而统一可解释推理并实现对安全标准的验证。

ABSTRACT

This paper argues that interpretability research in Artificial Intelligence (AI) is fundamentally ill-posed as existing definitions of interpretability fail to describe how interpretability can be formally tested or designed for. We posit that actionable definitions of interpretability must be formulated in terms of *symmetries* that inform model design and lead to testable conditions. Under a probabilistic view, we hypothesise that four symmetries (inference equivariance, information invariance, concept-closure invariance, and structural invariance) suffice to (i) formalise interpretable models as a subclass of probabilistic models, (ii) yield a unified formulation of interpretable inference (e.g., alignment, interventions, and counterfactuals) as a form of Bayesian inversion, and (iii) provide a formal framework to verify compliance with safety standards and regulations.

研究动机与目标

  • 认为当前的解释性定义是病态的且缺乏可验证性。
  • 提出四个对称性作为可形式化、可检验的可解释模型基础。
  • 将可解释模型正式化为Markov范畴并将其与贝叶斯反演相连接。
  • 提供一个框架,以在可解释性中实现对齐、干预与反事实的对齐、干预与推理。
  • 强调对安全标准和监管合规性的影响。

提出的方法

  • 提出四个可解释性对称性:推理等变、信息不变、概念闭包不变、以及结构不变。
  • 在概率、范畴论(Markov范畴)框架内使用字符串图来建模可解释性。
  • 定义可解释模型的范畴,并展示如何对基于概念的变换进行组合与推理。
  • 演示对称性如何提供一个统一视图,在该视图中对齐、干预和反事实都是贝叶斯反演的形式。
  • 讨论这些对称性如何实现对可解释系统的可行验证与设计指南。

实验结果

研究问题

  • RQ1RQ1: 如何将对可解释性的非正式描述 formally 结合起来?
  • RQ2RQ2: 如何通过压缩和信息不变性使推理等变可行?
  • RQ3RQ3: 在概念闭包方面,翻译要保持意思需要什么?
  • RQ4RQ4: 可解释模型的结构应如何与用户的假设空间对齐?
  • RQ5RQ5: 如何形式化可解释模型及其范畴论结构?
  • RQ6RQ6: 如何学习并对齐人与模型的概念?
  • RQ7RQ7: 可解释模型支持哪些查询与干预?

主要发现

  • 可解释性可以通过四个对称性形式化,这些对称性构建了模型设计与测试的框架。
  • 推理等变通过将人类心智模型与模型输出连接起来的交换图实现。
  • 信息不变通过使用保留与目标Y相关的全部信息的简化表示来实现可行的验证。
  • 概念闭包不变要求翻译保留概念的含义,使模型与人类词汇表对齐。
  • 结构不变将可解释性与用户的认知-假设空间联系起来,确保模型的行为符合用户可以自行推理的方式。
  • 该框架给出了对概念的概率解释以及由概念空间和基于概念的变换构成的可解释模型范畴。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。