Skip to main content
QUICK REVIEW

[논문 리뷰] Scikit-Multiflow: A Multi-output Streaming Framework

Jacob Montiel, Jesse Read|arXiv (Cornell University)|2018. 07. 12.
Data Stream Mining Techniques참고 문헌 7인용 수 277
한 줄 요약

scikit-multiflow은 다출력/다라벨 및 스트리밍 데이터 마이닝용 Python 프레임워크로, 최첨단 방법, 스트림 생성기, 평가기를 통합하여 스트림 학습 연구와 실험을 가능하게 한다.

ABSTRACT

Scikit-multiflow is a multi-output/multi-label and stream data mining framework for the Python programming language. Conceived to serve as a platform to encourage democratization of stream learning research, it provides multiple state of the art methods for stream learning, stream generators and evaluators. scikit-multiflow builds upon popular open source frameworks including scikit-learn, MOA and MEKA. Development follows the FOSS principles and quality is enforced by complying with PEP8 guidelines and using continuous integration and automatic testing. The source code is publicly available at https://github.com/scikit-multiflow/scikit-multiflow.

연구 동기 및 목표

  • scikit-learn과 상호 작용하고 스트림을 위한 최첨단 방법을 확장하는 Python 기반 스트림 학습 프레임워크의 공백을 메운다.
  • 스트림 학습 연구의 개발과 평가를 용이하게 하는 도구를 제공한다.
  • Python 데이터 사이언스 생태계에서 도구를 쉽게 이용할 수 있게 함으로써 스트림 학습의 민주화를 촉진한다.

제안 방법

  • fit, partial_fit, predict, 및 predict_proba 메서드를 갖춘 기본 StreamModel 클래스.
  • Stream 객체는 연속 데이터 흐름을 제공하며; StreamEvaluator는 데이터 질의, 학습/테스트 및 성능 추적을 처리한다.
  • Prequential(교대 테스트-학습) 평가를 스트림의 핵심 평가 방법으로 삼는다.
  • 스트림 생성기, 학습기, 변경 탐지기 및 평가 방법(프리퀀셜 및 홀드아웃)을 지원한다.
  • 인터페이스와 방법론을 참고해 scikit-learn, MOA, MEKA와 같은 기존 프레임워크와의 통합을 구현했다.
  • BSD 라이선스의 오픈 소스이며, 문서화, 지속적 통합 및 공개 저장소를 갖춘다.

실험 결과

연구 질문

  • RQ1Python 프레임워크가 증분 학습으로 다출력/다라벨 스트리밍 학습을 어떻게 지원할 수 있는가?
  • RQ2scikit-multiflow가 스트림 학습 연구를 위해 scikit-learn, MOA 및 MEKA를 연결하는 공통 기반을 제공할 수 있는가?
  • RQ3스트림 학습 방법의 개발 및 평가를 용이하게 하기 위해 필요한 도구들(생성기, 학습기, 탐지기, 평가자)은 무엇인가?
  • RQ4시간에 따른 모델 성능 평가를 위해 이 프레임워크에서 Prequential 평가가 어떻게 작동하는가?

주요 결과

  • 이 프레임워크는 다출력 학습에 적합한 스트림 생성기, 학습기, 변경 탐지기, 평가자를 제공한다.
  • 증분 학습과 함께 이진/다중 클래스와 다라벨/다출력 시나리오를 모두 지원한다.
  • 스트리밍 맥락에서 성능 추적을 위한 prequential 평가와 홀드아웃 평가를 가능하게 한다.
  • 이 프로젝트는 Python에서 도구를 쉽게 이용할 수 있고 scikit-learn과 상호 운용 가능하게 하여 스트림 학습의 민주화를 강조한다.
  • 코드는 BSD 라이선스의 오픈 소스이며 지속적 통합과 공개 호스팅을 갖춘다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.