Skip to main content
QUICK REVIEW

[論文レビュー] River: machine learning for streaming data in Python

Jacob Montiel, Max Halford|arXiv (Cornell University)|Dec 8, 2020
Machine Learning and Data Classification参考文献 3被引用数 159
ひとこと要約

River は、Creme と scikit-multiflow を統合したストリーミング/オンライン機械学習の Python ライブラリで、統一アーキテクチャ、パイプライン、様々なタスク向けのベンチマークを提供します。

ABSTRACT

River is a machine learning library for dynamic data streams and continual learning. It provides multiple state-of-the-art learning methods, data generators/transformers, performance metrics and evaluators for different stream learning problems. It is the result from the merger of the two most popular packages for stream learning in Python: Creme and scikit-multiflow. River introduces a revamped architecture based on the lessons learnt from the seminal packages. River's ambition is to be the go-to library for doing machine learning on streaming data. Additionally, this open source package brings under the same umbrella a large community of practitioners and researchers. The source code is available at https://github.com/online-ml/river.

研究の動機と目的

  • ストリーミングデータ上で機械学習を実行し、継続的学習機能を提供する。
  • 分類、回帰、クラスタリング、予測、異常検知など、複数の学習タスクをサポートする柔軟で統一されたアーキテクチャを提供する。
  • 再現性のあるストリーム実験を促進するためのトランスフォーマ、パイプライン、パフォーマンス評価ツールを提供する。
  • River を既存のストリーミングライブラリと比較して、精度と速度を評価する。
  • すべてを一つのオープンソースパッケージに統合することで、アクセシビリティとコミュニティの普及を促進する。

提案手法

  • 学習タスク間の互換性を確保するため、タスク固有のミックスインを用いたアーキテクチャ設計(分類、回帰、クラスタリングなど)。
  • インスタンス単位のオンライン学習向けの learn_one および predict_one(および関連メソッド)のコア学習インターフェース;learn_many/predict_many によるバッチインクリメンタル学習をサポート。
  • トランスフォーマーと推定器を連結するパイプラインにより、学習器の前処理(例:StandardScaler)を有効にする。
  • 高速な特徴量処理と特徴量の進化を可能にする、Cython バックエンドを備えた効率的な辞書ベースのデータコンテナ。
  • リアルタイムでストリーミングデータを処理するための、インスタンスインクリメンタルおよびリミテッドバッチインクリメンタル学習手法。
  • Elec2データセット上で既存ライブラリ(GNB、LR、Hoeffding Tree)とベンチマークを実施し、精度と処理時間を比較。

実験結果

リサーチクエスチョン

  • RQ1Elec2 のような標準的なストリーミングベンチマークにおいて、River の精度は scikit-learn、Creme、scikit-multiflow とどう比較されるか?
  • RQ2モデル間の速度とスケーラビリティの観点で、River の learn_one/predict_one および learn_many/predict_many の性能はどう比較されるか?
  • RQ3分類、回帰、クラスタリング、予測、異常検知などの主要なストリーミングタスクにおいて、競争力のある精度を維持しつつ、同等またはそれ以上の速度をRiverは提供するか?
  • RQ4ストリーミング環境でモデルの拡張性と特徴量の進化を最も効果的に支援するアーキテクチャ機能(ミックスイン、パイプライン、辞書ベースのデータコンテナ)とは何か?

主な発見

  • River は、Elec2 ベンチマークにおいて、Gaussian Naive Bayes、Logistic Regression、Hoeffding Tree で他のストリーミングライブラリと同等の精度を達成。
  • River は一般的に競合ライブラリより learn および predict の時間が速く、強力な実行時性能を示す。
  • Elec2 ベンチマークでは、 River の精度は scikit-learn、Creme、scikit-multiflow と密接に一致しており、競争力のある予測性能を示す。
  • このアーキテクチャは柔軟性、使いやすさ、インスタンスインクリメンタル学習とリミテッドバッチインクリメンタル学習の統一インターフェースを強調し、多様なストリーミングシナリオをサポートする。
  • ベンチマーク結果は、広範なサポートタスクと効率的な性能を備えた、ストリーミング機械学習の定番ライブラリとしての River の能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。