[论文解读] Finding Alignments Between Interpretable Causal Variables and Distributed Neural Representations
本文介绍 Distributed Alignment Search (DAS),一种基于梯度的方法,将高层因果模型与分布式神经表示通过分布式置换干预对齐,在层次化等式和自然语言推理任务上实现完美或近乎完美的置换干预准确性(IIA)。
Causal abstraction is a promising theoretical framework for explainable artificial intelligence that defines when an interpretable high-level causal model is a faithful simplification of a low-level deep learning system. However, existing causal abstraction methods have two major limitations: they require a brute-force search over alignments between the high-level model and the low-level one, and they presuppose that variables in the high-level model will align with disjoint sets of neurons in the low-level one. In this paper, we present distributed alignment search (DAS), which overcomes these limitations. In DAS, we find the alignment between high-level and low-level models using gradient descent rather than conducting a brute-force search, and we allow individual neurons to play multiple distinct roles by analyzing representations in non-standard bases-distributed representations. Our experiments show that DAS can discover internal structure that prior approaches miss. Overall, DAS removes previous obstacles to conducting causal abstraction analyses and allows us to find conceptual structure in trained neural nets.
研究动机与目标
- 动机与形式化因果抽象以解释神经网络。
- 通过基于梯度的优化,克服暴力搜索的对齐问题。
- 放宽对局部、互不相连的神经元–变量映射的假设,允许分布式表征。
- 在具有明确高层解的任务上演示 DAS(层次等式和 NLI)。
- 将 DAS 与暴力的局部化搜索进行比较,并分析分布式表示的分解。
提出的方法
- 定义构造性因果抽象与高层模型与低层网络之间的置换干预(II)。
- 引入分布式置换干预(DII),将表示旋转到非标准基底,保留基础输入并使用旋转分量进行补丁。
- 用可微分矩阵参数化正交旋转,并通过梯度下降优化以最大化置换干预准确性(IIA)。
- 形式化 Distributed Alignment Search (DAS),学习高层变量与神经表征旋转子子空间之间的子空间对齐。
- 以高层输出与旋转后的低层输出之间的交叉熵作为优化目标。
- 在与暴力的局部化对齐相比的基准下进行评估,并分析学习到的分布式表示是否分解为输入身份。

实验结果
研究问题
- RQ1在学习到的分布式表示下,是否可以将高层因果模型如实对齐到低层神经网络?
- RQ2允许分布式(非局部)神经元–变量映射是否比局部化对齐提高抽象准确性?
- RQ3学习到的分布式表示在多大程度上反映抽象关系而非可分解的输入身份?
- RQ4DAS 在具有明确符号解的任务(层次等式)与基于语义的任务(NLI)上的表现如何?
主要发现
- DAS 发现局部化方法所错过的内部结构,并实现比暴力局部化搜索更高的置换干预准确性。
- 在层次化等式任务中,DAS 在多个设定中达到完美或近乎完美的对齐(高 IIA),优于暴力搜索和局部化基线。
- 在自然语言推理任务中,DAS 找到与涉及蕴涵关系的因果模型的完美对齐,揭示表示是否编码数据结构而非纯关系。
- 在 NLI 案例中,蕴涵表示分解为两个词身份表示,而非可分离的蕴涵组件,表现出对具体情境的抽象行为。
- 对随机网络的实验表明,较大的隐层表示可能产生虚假的可操控性,强调分布式、原理性对齐的必要性。
- DAS 表明分布式表示可以在训练好的网络中忠实实现符号化、树状结构的算法。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。