Skip to main content
QUICK REVIEW

[论文解读] SBSM-Pro: Support Bio-sequence Machine for Proteins

Yizheng Wang, Yixiao Zhai|arXiv (Cornell University)|Aug 20, 2023
Machine Learning in Bioinformatics被引用 28
一句话总结

SBSM-Pro 引入基于序列的核学习框架,将氨基酸按物理化学性质分组,通过新颖的 MKL 方法整合多种相似性核,并在十个数据集上使用 SVM 进行蛋白质分类。

ABSTRACT

Proteins play a pivotal role in biological systems. The use of machine learning algorithms for protein classification can assist and even guide biological experiments, offering crucial insights for biotechnological applications. We introduce the Support Bio-Sequence Machine for Proteins (SBSM-Pro), a model purpose-built for the classification of biological sequences. This model starts with raw sequences and groups amino acids based on their physicochemical properties. It incorporates sequence alignment to measure the similarities between proteins and uses a novel multiple kernel learning (MKL) approach to integrate various types of information, utilizing support vector machines for classification prediction. The results indicate that our model demonstrates commendable performance across ten datasets in terms of the identification of protein function and posttranslational modification. This research not only exemplifies state-of-the-art work in protein classification but also paves avenues for new directions in this domain, representing a beneficial endeavor in the development of platforms tailored for the classification of biological sequences. SBSM-Pro is available for access at http://lab.malab.cn/soft/SBSM-Pro/.

研究动机与目标

  • 激发对可靠的蛋白质序列分类工具的需求,这些工具能够保留丰富的序列信息。
  • 提出一个新的框架(PSD),在保留物理化学意义的同时减少氨基酸字母表。
  • 开发并整合多种蛋白质相似性核,使用 Levenshtein 距离和 Smith–Waterman 分数。
  • 结合新的 MKL 方法(HCKDM-MKL)融合核,并使用预计算核的 SVM 进行分类。

提出的方法

  • 将 PSD 定义为通过谱聚类按 10 种物理化学性质对氨基酸进行分组,以创建字典。
  • 对重新编码的序列计算两种序列相似性度量(Levenshtein 距离和 Smith–Waterman 得分)。
  • 生成 20 个核(10 个字典 × 2 种相似性度量),并使用所提出的 HCKDM-MKL 核学习方法融合它们。
  • 用来自融合的中心核的预计算核训练用于蛋白功能和 PTM 分类的 SVM。
  • 在十个数据集上将 SBSM-Pro 与现有方法进行比较,并通过消融研究分析各模块的贡献。

实验结果

研究问题

  • RQ1基于 PSD 的氨基酸分组是否能改善用于蛋白分类的序列相似性测量?
  • RQ2MKL 是否能够有效整合多种相似性核,从而提升预测准确性超过单一核?
  • RQ3在 PSD 编码序列用于核构建的背景下,Levenshtein 距离和 Smith–Waterman 得分的比较如何?
  • RQ4使用所提出的 HCKDM-MKL 与其他 MKL 方法相比,对分类性能的影响如何?

主要发现

数据集SBSM-Pro ACC最佳现有 ACC
DBP0.89250.753
T3SE0.82890.830
PVP0.82980.798
PTSS0.90000.8563
PSNS0.75000.7317
PLGS0.83810.7207
PCS10.87370.8443
PCS20.87910.8679
PCS30.86870.8423
PCS40.86990.8617
  • SBSM-Pro 在大多数数据集上实现了比现有方法更高的 ACC(例如 DBP 0.8925 vs 0.753;PTSS 0.9000 vs 0.8563)。
  • 在十个数据集上,SBSM-Pro 通常优于最先进的方法,表明具有更好的泛化性和鲁棒性。
  • 结合使用带有 Levenshtein 距离和 Smith–Waterman 分数的氨基酸分组,并通过 HCKDM-MKL 进行融合,可获得更优的核融合和预测性能。
  • 基于 MKL 的核融合在数据集上的平均核权重方面,一直优于 HSIC-MKL、HKAM-MKL 以及简单平均加权。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。