Skip to main content
QUICK REVIEW

[論文レビュー] Scikit-Multiflow: A Multi-output Streaming Framework

Jacob Montiel, Jesse Read|arXiv (Cornell University)|Jul 12, 2018
Data Stream Mining Techniques参考文献 7被引用数 277
ひとこと要約

scikit-multiflow は、最新の手法、ストリーム生成器、評価器を統合した、マルチ出力/マルチラベルおよびストリーミングデータマイニングのための Python フレームワークであり、ストリーム学習の研究と実験を可能にします。

ABSTRACT

Scikit-multiflow is a multi-output/multi-label and stream data mining framework for the Python programming language. Conceived to serve as a platform to encourage democratization of stream learning research, it provides multiple state of the art methods for stream learning, stream generators and evaluators. scikit-multiflow builds upon popular open source frameworks including scikit-learn, MOA and MEKA. Development follows the FOSS principles and quality is enforced by complying with PEP8 guidelines and using continuous integration and automatic testing. The source code is publicly available at https://github.com/scikit-multiflow/scikit-multiflow.

研究の動機と目的

  • scikit-learn と連携し、ストリームの最先端手法を拡張する Python ベースのストリーム学習フレームワークの空白を埋める。
  • ストリーム学習研究の開発と評価を促進するツールを提供する。
  • Pythonデータサイエンスエコシステム内でツールを利用可能にすることにより、ストリーム学習の民主化を促進する。

提案手法

  • fit、partial_fit、predict、predict_proba メソッドを備えた Base StreamModel クラス。
  • Stream オブジェクトは継続的なデータフローを提供し、StreamEvaluator はデータ照会、訓練/テスト、パフォーマンス追跡を担当します。
  • プリクレショナル(交互にテスト-トレイン)評価をストリームの中核評価手法として採用。
  • ストリーム生成器、学習器、変化検出器、および評価手法(prequential および hold-out)のサポート。
  • インタフェースと方法論にありがよう、scikit-learn、MOA、MEKA などの既存フレームワークとの統合は、それらのインターフェースと方法論に触発されています。
  • BSD-licensed, オープンソース、ドキュメント、継続的インテグレーション、公開リポジトリを備えています。

実験結果

リサーチクエスチョン

  • RQ1Pythonフレームワークは、インクリメンタルトレーニングを伴うマルチ出力/マルチラベルのストリーミング学習をどのようにサポートできるか。
  • RQ2scikit-multiflow は、ストリーム学習研究のために scikit-learn、MOA、MEKAを橋渡しする共通の基盤を提供できるか。
  • RQ3ストリーム学習手法の開発と評価を促進するために必要なツール(生成器、学習器、検出器、評価器)は何か。
  • RQ4このフレームワーク内で、時間とともにモデルの性能を評価するための prequential evaluation はどのように機能するか。

主な発見

  • このフレームワークは、マルチ出力学習に適したストリーム生成器、学習器、変化検出器、および評価器を提供します。
  • インクリメンタルトレーニングに対応し、バイナリ/マルチクラスおよびマルチラベル/マルチ出力のシナリオを、インクリメンタルトレーニングとともにサポートします。
  • ストリーミングコンテキストでの性能追跡を可能にするため、事前逐次評価およびホールドアウト評価を実現します。
  • 本プロジェクトは、Python でツールを利用可能にし、scikit-learn との相互運用性を持たせることで、ストリーム学習の民主化を強調しています。
  • コードは BSD License の下でオープンソースであり、継続的インテグレーションと公開ホスティングを備えています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。