Skip to main content
QUICK REVIEW

[论文解读] Learning with Feature Evolvable Streams

Bojian Hou, Lijun Zhang|arXiv (Cornell University)|Jun 16, 2017
Data Stream Mining Techniques参考文献 32被引用 32
一句话总结

本文提出了特征可演化流式学习(FESL),这是一种新颖的流式数据学习范式,其中由于传感器更换或系统更新,特征会随时间演变。通过利用新旧特征共存的重叠期,FESL 学习从新特征到旧特征的映射,从而实现预训练模型的重用,并通过结合或动态选择基于旧特征和新特征模型的预测结果的集成方法,提升性能。

ABSTRACT

Learning with streaming data has attracted much attention during the past few years. Though most studies consider data stream with fixed features, in real practice the features may be evolvable. For example, features of data gathered by limited-lifespan sensors will change when these sensors are substituted by new ones. In this paper, we propose a novel learning paradigm: \emph{Feature Evolvable Streaming Learning} where old features would vanish and new features would occur. Rather than relying on only the current features, we attempt to recover the vanished features and exploit it to improve performance. Specifically, we learn two models from the recovered features and the current features, respectively. To benefit from the recovered features, we develop two ensemble methods. In the first method, we combine the predictions from two models and theoretically show that with the assistance of old features, the performance on new features can be improved. In the second approach, we dynamically select the best single prediction and establish a better performance guarantee when the best model switches. Experiments on both synthetic and real data validate the effectiveness of our proposal.

研究动机与目标

  • 解决现有流式学习方法的局限性,即假设特征空间固定,而这一假设在传感器网络等实际场景中不成立,因传感器寿命有限。
  • 提出一种新的学习范式——特征可演化流式学习(FESL),以应对旧特征消失、新特征随时间出现的情况。
  • 通过在重叠期内学习从新特征到旧特征的映射,恢复并利用已消失特征的信息。
  • 通过结合或动态选择基于旧特征和新特征训练的模型的预测结果,提升在特征空间演化的场景下的预测性能。
  • 在特征演化背景下,为所提出的集成方法建立理论性能保证。

提出的方法

  • 基于新旧特征共存的重叠期假设,形式化 FESL 问题,从而实现特征映射。
  • 利用重叠期的数据,学习从新特征到旧特征的映射函数,实现从新特征重建旧特征。
  • 提出 FESL-c:一种集成方法,通过自适应加权结合基于恢复的旧特征和当前新特征训练的模型的预测结果。
  • 提出 FESL-s:一种动态选择方法,在测试时选择表现最佳的模型(旧或新),并在模型切换时提供理论性能保证。
  • 理论分析表明,FESL-c 通过利用旧特征知识提升泛化能力,即使新特征空间尚不成熟亦如此。
  • 使用标准流式分类器(如霍夫丁树、朴素贝叶斯)作为基模型,并通过特征映射将它们的适用范围扩展至原始特征空间之外。

实验结果

研究问题

  • RQ1我们能否通过重用已消失特征训练的模型,在特征随时间演变的流式学习中提升性能?
  • RQ2在重叠期内,如何有效学习从新特征到旧特征的映射,以恢复过往的模型知识?
  • RQ3结合基于恢复的旧特征和当前新特征训练的模型的预测结果,是否能比仅依赖新特征获得更好的泛化能力?
  • RQ4在特征演化背景下,动态选择旧特征与新特征模型是否能实现更优性能和更强的理论保证?
  • RQ5在合成数据集和真实世界流式数据集上,所提出的 FESL 框架与基线方法相比,在准确率和鲁棒性方面表现如何?

主要发现

  • 在 20 个 Reuter 数据集中的 17 个上,FESL-c 超过所有基线模型,表明通过恢复特征的集成学习可实现显著性能提升。
  • 在 20 个 Reuter 数据集中的 9 个上,FESL-s 表现最佳,表明动态模型选择在适应变化的特征环境方面具有显著有效性。
  • 在合成数据集上,FESL-c 和 FESL-s 均持续优于 NOGD、ROGD-u 和 ROGD-f,且 FESL-c 在所有数据集上平均准确率最高。
  • 理论分析证实,FESL-c 通过整合旧特征知识提升泛化能力,即使新特征模型尚不成熟亦成立。
  • ROGD-f(不更新模型)表现最差,因其累积了过时恢复数据的错误,凸显了 FESL 中主动模型集成的优势。
  • 在新特征周期较短的数据集中,FESL 与基线之间的性能差距最为显著,表明 FESL 利用旧模型知识的能力在此类场景中最为关键。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。