QUICK REVIEW

[论文解读] ktrain: A Low-Code Library for Augmented Machine Learning

Arun S. Maiya|arXiv (Cornell University)|Apr 19, 2020

Topic Modeling参考文献 14被引用 53

一句话总结

ktrain 是一个低代码的 Python 库，封装 TensorFlow Keras 和其他工具，以简化在文本、视觉、图形和表格数据上构建、训练、检查和部署模型的工作流，统一地，三到四行工作流。

ABSTRACT

We present ktrain, a low-code Python library that makes machine learning more accessible and easier to apply. As a wrapper to TensorFlow and many other libraries (e.g., transformers, scikit-learn, stellargraph), it is designed to make sophisticated, state-of-the-art machine learning models simple to build, train, inspect, and apply by both beginners and experienced practitioners. Featuring modules that support text data (e.g., text classification, sequence tagging, open-domain question-answering), vision data (e.g., image classification), graph data (e.g., node classification, link prediction), and tabular data, ktrain presents a simple unified interface enabling one to quickly solve a wide range of tasks in as little as three or four "commands" or lines of code.

研究动机与目标

通过提供一个简单、统一的接口，民主化进入门槛，让多种数据类型和任务的先进 ML 更易获取。
自动化或半自动化关键 ML 工作流程步骤（数据预处理、模型创建、学习率估计、训练、评估、部署），以减少编码工作量。
使初学者和领域专家都能够以最少的代码行数构建、训练、调优、检查并应用模型。
支持开箱即用的模型与迁移学习选项，以及可解释性 AI 工具和部署就绪性。

提出的方法

提供一个统一的低代码 API，封装 tf.keras 与其他库（例如 transformers、scikit-learn、stellargraph）。
为文本、视觉、图形和表格数据提供任务，并基于数据检查自动配置模型。
包括步骤：加载/预处理数据、创建模型、估计学习率，并使用各种调度（fit_onecycle、autofit 等）进行训练。
公开 Learner 抽象以促进训练，及用于部署的 Predictor 抽象，具备 save/load 能力并支持 Explainable AI。

实验结果

研究问题

RQ1如何通过低代码界面自动化并整合跨多种数据模态（文本、视觉、图形、表格）的常见 ML 工作流步骤？
RQ2增强自动化（AugML）对初学者和专家在可访问性与构建高质量模型速度方面的影响是什么？
RQ3用户在实现跨任务的竞争性性能时，能否有效地在开箱即用模型与自定义模型之间进行选择？
RQ4ktrain 在最少用户编码的情况下，如何支持检查、评估和部署工作流？

主要发现

ktrain 提供了一个统一的接口，使每个任务的端到端 ML 工作流仅需三到四行代码。
它支持文本、视觉、图形和表格数据，具有预训练模型（例如 BERT、ResNet50）和基于数据的自动配置。
自动化功能包括学习率寻找和各种训练调度（OneCycle、三角 LR、SGDR），并可选早停。
该包提供评估、错误分析（view_top_losses），以及具备可解释性 AI 功能（SHAP、ELI5、LIME）的部署就绪 Predictor。
无监督任务（例如开放域问答、主题建模、零样本分类）可以用三行代码实现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。