QUICK REVIEW

[論文レビュー] ktrain: A Low-Code Library for Augmented Machine Learning

Arun S. Maiya|arXiv (Cornell University)|Apr 19, 2020

Topic Modeling参考文献 14被引用数 53

ひとこと要約

ktrain は TensorFlow Keras やその他のツールをラップして、テキスト、視覚、グラフ、タブularデータに対して一貫した3〜4行のワークフローでモデルの作成、訓練、検査、展開を簡素化する低コード Python ライブラリです。

ABSTRACT

We present ktrain, a low-code Python library that makes machine learning more accessible and easier to apply. As a wrapper to TensorFlow and many other libraries (e.g., transformers, scikit-learn, stellargraph), it is designed to make sophisticated, state-of-the-art machine learning models simple to build, train, inspect, and apply by both beginners and experienced practitioners. Featuring modules that support text data (e.g., text classification, sequence tagging, open-domain question-answering), vision data (e.g., image classification), graph data (e.g., node classification, link prediction), and tabular data, ktrain presents a simple unified interface enabling one to quickly solve a wide range of tasks in as little as three or four "commands" or lines of code.

研究の動機と目的

高度な ML へのアクセスを普及させるため、さまざまなデータタイプとタスク向けのシンプルで統一されたインターフェースを提供。
データ前処理、モデル作成、学習率推定、訓練、評価、展開など、主要な ML ワークフローのステップを自動化または半自動化して、コーディング労力を削減。
初心者とドメイン専門家の両方が、最小限のコード行数でモデルを構築・訓練・チューニング・検査・適用できるようにする。
出力機能には、Explainable AI およびデプロイ可能性のツールとともに、事前入手可能なモデルと転移学習オプションをサポートする。

提案手法

tf.keras および他のライブラリ（例：transformers、scikit-learn、stellargraph）をラップする統一的なローコード API を提供。
データ検査に基づいて自動的にモデル設定を行い、テキスト、視覚、グラフ、表形式データのタスクを提供。
ロード／前処理データ、モデル作成、学習率推定、さまざまなスケジュール（fit_onecycle、autofit など）を用いた訓練を含む。
訓練を促進する Learner の抽象化と、保存/ロード機能および Explainable AI サポートを備えたデプロイメント用Predictor の抽象化を公開。

実験結果

リサーチクエスチョン

RQ1テキスト、視覚、グラフ、表形式の複数のデータモーダリティに跨る一般的な ML ワークフローステップを、ローコードなインターフェースが自動化・統合できるか。
RQ2AugML（高度化自動化）の beginnersと experts の両方に対する高品質モデルの構築のアクセス性と速度に与える影響は。
RQ3ユーザーは出荷モデルとカスタムモデルの間で効果的に選択し、タスク間で競争力のある性能を達成できるか。
RQ4最小限のユーザーコーディングで inspection、評価、展開ワークフローをどれだけうまくサポートするか。

主な発見

ktrain は、タスクごとに3〜4行のコードでエンドツーエンドの ML ワークフローを可能にする統一インターフェースを提供。
テキスト、視覚、グラフ、表形式データを、事前学習モデル（例：BERT、ResNet50）とデータに基づく自動設定でサポート。
学習率探索やさまざまな訓練スケジュール（OneCycle、triangular LR、SGDR）を含む自動化機能と、任意の早期停止を提供。
評価、誤差分析（view_top_losses）、そしてExplainable AI 機能を備えたデプロイメント準備完了の Predictor を提供（SHAP、ELI5、LIME）。
非教師ありタスク（例：オープンドメインQ&A、トピックモデリング、ゼロショット分類）を3行のコードで実装可能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。