[论文解读] XAI Beyond Classification: Interpretable Neural Clustering
本文提出了 TELL,一种本质可解释的神经网络,将 k-means 重新表述为一个可微分的聚类层,用于端到端学习、在线/并行聚类,以及在收敛性保证下的可扩展性提升。
In this paper, we study two challenging problems in explainable AI (XAI) and data clustering. The first is how to directly design a neural network with inherent interpretability, rather than giving post-hoc explanations of a black-box model. The second is implementing discrete $k$-means with a differentiable neural network that embraces the advantages of parallel computing, online clustering, and clustering-favorable representation learning. To address these two challenges, we design a novel neural network, which is a differentiable reformulation of the vanilla $k$-means, called inTerpretable nEuraL cLustering (TELL). Our contributions are threefold. First, to the best of our knowledge, most existing XAI works focus on supervised learning paradigms. This work is one of the few XAI studies on unsupervised learning, in particular, data clustering. Second, TELL is an interpretable, or the so-called intrinsically explainable and transparent model. In contrast, most existing XAI studies resort to various means for understanding a black-box model with post-hoc explanations. Third, from the view of data clustering, TELL possesses many properties highly desired by $k$-means, including but not limited to online clustering, plug-and-play module, parallel computing, and provable convergence. Extensive experiments show that our method achieves superior performance comparing with 14 clustering approaches on three challenging data sets. The source code could be accessed at \url{www.pengxi.me}.
研究动机与目标
- 为无监督聚类设计并推动一种本质可解释的神经网络。
- 提供 vanilla k-means 的可微分重表述为一个神经网络层。
- 在可证明收敛性的前提下实现在线/并行聚类与端到端表示学习。
提出的方法
- 使用基于聚类中心的线性超平面 W 和偏置 b,将 vanilla k-means 目标重新表述为一个可微分的神经层。
- 通过温度参数 tau,将类别分配放宽为类似软注意力的表示 I_j(X_i)。
- 在训练过程中对 W 和 b 进行解耦,以避免退化解,并对聚类层权重及其梯度进行归一化以实现稳定优化。
- 恢复聚类中心为 Omega* = 1/2 W*,并对数据/中心进行单位范数归一化,以保持欧氏距离语义。
- 引入自编码器,通过将重构损失与聚类损失结合,实现端到端学习的聚类友好表示,L = L_rec + lambda L_clu。
实验结果
研究问题
- RQ1是否可以构建一个本质可解释的神经网络来进行聚类,而不需要事后解释?
- RQ2可微分的 k-means 重表述是否能够实现端到端学习与在线/小批量聚类?
- RQ3在保持可解释性和可扩展性的同时,模型是否能够提供理论上的收敛保证?
- RQ4将聚类层与表示学习结合,对大规模数据集的聚类性能有何影响?
主要发现
- TELL 在设计上提供可解释的神经聚类模型,直接将聚类中心编码为神经层的权重参数。
- 该方法在 SGD 下可实现在线和小批量优化,并具备可证明的收敛性。
- 对聚类权重和梯度进行归一化可稳定训练,并在迭代中保持聚类中心的语义意义。
- 端到端训练将重构损失与聚类损失结合,学习更有利于聚类的表示。
- 实证结果显示,与 14 种竞品相比,TELL 在三个挑战性数据集(MNIST、CIFAR-10、CIFAR-100)上实现了更优的聚类 performance。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。