[论文解读] Interpretable Graph Convolutional Neural Networks for Inference on Noisy Knowledge Graphs
该论文提出了一种在图卷积神经网络(GCNNs)中使用正则化注意力机制的方法,通过学习边权重来提升在噪声生物医学知识图谱上的链接预测性能。通过为不可靠边分配较低权重,该模型增强了对噪声的鲁棒性,支持关键关系的可解释性可视化,并实现自动化数据去噪——在FB15k-237和一个大型生物医学知识图谱上均验证了性能提升与可信度评估。
In this work, we provide a new formulation for Graph Convolutional Neural Networks (GCNNs) for link prediction on graph data that addresses common challenges for biomedical knowledge graphs (KGs). We introduce a regularized attention mechanism to GCNNs that not only improves performance on clean datasets, but also favorably accommodates noise in KGs, a pervasive issue in real-world applications. Further, we explore new visualization methods for interpretable modelling and to illustrate how the learned representation can be exploited to automate dataset denoising. The results are demonstrated on a synthetic dataset, the common benchmark dataset FB15k-237, and a large biomedical knowledge graph derived from a combination of noisy and clean data sources. Using these improvements, we visualize a learned model's representation of the disease cystic fibrosis and demonstrate how to interrogate a neural network to show the potential of PPARG as a candidate therapeutic target for rheumatoid arthritis.
研究动机与目标
- 解决生物医学知识图谱中噪声多、异质性强的数据带来的准确链接预测挑战。
- 通过引入可学习的、正则化的注意力机制实现边加权,提升GCNN在噪声数据上的性能。
- 通过可视化单条边对预测的贡献,实现模型可解释性。
- 利用学习到的边权重识别并过滤错误或低置信度关系,支持自动化数据质量评估。
- 通过识别如PPARG对类风湿性关节炎的潜在治疗靶点,展示在药物-靶点发现中的实用性。
提出的方法
- 提出一种带有可学习注意力权重 $ C_{r,i,j} $ 的GCNN公式,该权重经过归一化处理以保持关系间固定预算,从而鼓励选择信息量高的边。
- 采用正则化注意力机制,其中 $ C_{r,i,j} = \frac{1}{\sum_{r'\in\mathcal{R}}\sum_{j'\in\mathcal{N}_i^{r}}|\hat{C}_{r',i,j'}|}|\hat{C}_{r,i,j}| $,初始值设为1,在训练过程中动态分配每条边的可信度。
- 使用单层GCNN,采用对角权重矩阵且无非线性激活,以最小化过拟合同时保持性能。
- 在实体嵌入和边权重上均应用dropout(p=0.5),以提升泛化能力。
- 采用交叉熵损失函数并结合负采样(n=10),初始嵌入进行L2归一化,以确保训练初期各贡献项平衡。
- 采用DistMult和Complex解码器进行链接预测,得分计算公式为 $ f(e_s, R_r, e_o) = e_s^T R_r e_o $。
实验结果
研究问题
- RQ1GCNN中的可学习注意力机制是否能提升在噪声生物医学知识图谱上的链接预测性能?
- RQ2学习到的边权重在多大程度上可作为数据质量的代理指标,用于识别错误或低置信度关系?
- RQ3注意力权重如何用于解释模型预测,例如识别驱动某一治疗靶点预测的关键因素?
- RQ4边权重是否与来自可信平台(如Open Targets)的外部置信度评分存在相关性?
- RQ5模型的注意力机制能否通过过滤低权重、不可靠的边,实现自动化数据去噪?
主要发现
- 所提出的带注意力机制的GCNN在FB15k-237和合成噪声数据集上均优于基线模型,表现出对噪声的强鲁棒性。
- 在人工评估中,低权重边的错误率高出三倍,证实边权重是数据质量的可靠指标。
- 边权重对Open Targets置信度评分具有强大预测能力:权重<0.1的边出现低分的概率是权重>0.9边的四倍(p=6×10⁻²⁸)。
- 在囊性纤维化病例中,注意力权重最高的6条边包括已知的CF治疗药物(如Ivacaftor),而权重最低的6条边则为错误抽取或支持薄弱的链接。
- 对PPARG-RA预测而言,最强的正向驱动因素是与E2F4的共表达关系,而最强的负向驱动因素是与PPP3CC的治疗关联,后者与精神分裂症相关。
- 不同关系类型上的边权重分布显示,某些数据源(如 $ r_1, r_2 $)具有更高比例的高权重边,表明其具有更高的实用性和可靠性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。