Skip to main content
QUICK REVIEW

[論文レビュー] Learning with Feature Evolvable Streams

Bojian Hou, Lijun Zhang|arXiv (Cornell University)|Jun 16, 2017
Data Stream Mining Techniques参考文献 32被引用数 32
ひとこと要約

本稿では、センサーの交換やシステムのアップデートに伴い、時間経過とともに特徴量が変化するストリーミングデータのための新しいパラダイムである特徴量可変型ストリーミング学習(FESL)を紹介する。旧来的な特徴量と新しい特徴量が重複する期間を活用することで、FESLは新しい特徴量から旧的な特徴量へのマッピングを学習し、事前に訓練されたモデルの再利用を可能にするとともに、旧的および新しい特徴量モデルからの予測を統合または動的に選択するアンサンブル手法により性能向上を実現する。

ABSTRACT

Learning with streaming data has attracted much attention during the past few years. Though most studies consider data stream with fixed features, in real practice the features may be evolvable. For example, features of data gathered by limited-lifespan sensors will change when these sensors are substituted by new ones. In this paper, we propose a novel learning paradigm: \emph{Feature Evolvable Streaming Learning} where old features would vanish and new features would occur. Rather than relying on only the current features, we attempt to recover the vanished features and exploit it to improve performance. Specifically, we learn two models from the recovered features and the current features, respectively. To benefit from the recovered features, we develop two ensemble methods. In the first method, we combine the predictions from two models and theoretically show that with the assistance of old features, the performance on new features can be improved. In the second approach, we dynamically select the best single prediction and establish a better performance guarantee when the best model switches. Experiments on both synthetic and real data validate the effectiveness of our proposal.

研究の動機と目的

  • センサーの寿命が限られているような実世界のシナリオ(例:センサーネットワーク)では成立しないが、固定された特徴量空間を仮定する従来のストリーミング学習手法の限界に対処する。
  • 旧特徴量が消滅し、新しい特徴量が時間経過とともに出現する状況を扱える、新しい学習パラダイム「特徴量可変型ストリーミング学習(FESL)」を提案する。
  • 重複期間中に新特徴量から旧特徴量へのマッピングを学習することで、消滅した特徴量からの情報を回復・活用する。
  • 旧特徴量モデルと新特徴量モデルの両方で訓練されたモデルからの予測を統合または動的に選択することにより、変化する特徴量空間における予測性能を向上させる。
  • 特徴量の変化下でのアンサンブル手法の理論的性能保証を確立する。

提案手法

  • 旧的および新しい特徴量が重複して存在する期間の仮定に基づき、FESLの問題を定式化し、特徴量マッピングを可能にする。
  • 重複期間のデータを用いて、新しい特徴量から旧的特徴量へのマッピング関数を学習し、新しい特徴量から旧的特徴量を再構築可能にする。
  • FESL-cを提案:回復された旧的特徴量で訓練されたモデルと現在の新しい特徴量で訓練されたモデルの予測を、適応的重み付けで統合するアンサンブル手法。
  • FESL-sを提案:テスト時に、旧的または新しい特徴量モデルのうち性能が優れた方を動的に選択する手法で、モデル切り替え時にも理論的性能保証を有する。
  • 理論的分析により、FESL-cは、新しい特徴量空間がまだ熟成されていない場合でも、旧的特徴量の知識を活用することで一般化性能を向上させることを示した。
  • 標準的なストリーミング分類器(例:Hoeffdingツリー、ナイーブベイズ)をベースモデルとして用い、特徴量マッピングを適用することで、元の特徴量空間を超えてその有用性を拡張する。

実験結果

リサーチクエスチョン

  • RQ1特徴量が時間経過とともに変化する状況において、消滅した特徴量で事前に訓練されたモデルを再利用することで、ストリーミング学習の性能を向上させることは可能か?
  • RQ2重複期間中に、新しい特徴量から旧的特徴量へのマッピングを効果的に学習することで、過去のモデル知識を回復できるか?
  • RQ3回復された旧的特徴量で訓練されたモデルと現在の新しい特徴量で訓練されたモデルの予測を統合することは、単に新しい特徴量に依存する場合よりも、より優れた一般化性能を達成できるか?
  • RQ4旧的および新しい特徴量モデル間での動的モデル選択は、特徴量の変化下でより高い性能とより強い理論的保証を達成できるか?
  • RQ5合成および実世界のストリーミングデータセットにおいて、提案されたFESLフレームワークは、ベースライン手法と比較して、正確性および頑健性の面で優れているか?

主な発見

  • FESL-cは20個のReuterデータセットのうち17個ですべてのベースラインを上回り、回復した特徴量を用いたアンサンブル学習による顕著な性能向上を示した。
  • FESL-sは20個のReuterデータセットのうち9個で最高の性能を達成し、変化する特徴量環境に適応する動的モデル選択の有効性を示した。
  • 合成データセットでは、FESL-cおよびFESL-sはNOGD、ROGD-u、ROGD-fを常に上回り、FESL-cは全データセットで最高の平均正答率を達成した。
  • 理論的分析により、FESL-cは、新しい特徴量モデルがまだ熟成されていない場合でも、旧的特徴量の知識を組み込むことで一般化性能が向上することを確認した。
  • 更新を行わないROGD-fは、古くなった回復データに蓄積された誤差のため、最も悪い性能を示し、FESLにおける能動的なモデル統合の利点を強調した。
  • FESLとベースラインとの性能差は、新しい特徴量の期間が短いデータセットで最も顕著であり、この場合、FESLが旧モデルの知識を効果的に活用できることが最も重要であることがわかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。