[论文解读] Machine learning 2.0 : Engineering Data Driven AI Products
论文提出 ML 2.0,一个为期 8 周的基于数据的端到端管线,使用可重复使用的 API 自动化数据组织、特征工程、模型选择和部署,使非 ML 专家能够提供可部署的最小可行数据驱动产品。
ML 2.0: In this paper, we propose a paradigm shift from the current practice of creating machine learning models - which requires months-long discovery, exploration and "feasibility report" generation, followed by re-engineering for deployment - in favor of a rapid, 8-week process of development, understanding, validation and deployment that can executed by developers or subject matter experts (non-ML experts) using reusable APIs. This accomplishes what we call a "minimum viable data-driven model," delivering a ready-to-use machine learning model for problems that haven't been solved before using machine learning. We provide provisions for the refinement and adaptation of the "model," with strict enforcement and adherence to both the scaffolding/abstractions and the process. We imagine that this will bring forth the second phase in machine learning, in which discovery is subsumed by more targeted goals of delivery and impact.
研究动机与目标
- 推动从 ML 1.0(以发现为主)向快速、以交付为核心的 ML 2.0 过程的范式转变。
- 引入使非 ML 专家能够快速构建和部署模型的抽象与自动化。
- 提供一个具体的端到端框架和工具,用于组织数据、进行特征工程和部署模型。
- 通过模型溯源与元数据工具促进可重复性和治理。
- 通过工业规模的用例和工具发布,展示 ML 2.0 的实际可行性。
提出的方法
- 将 ML 2.0 工作流定义为从数据组织到部署和生产验证的七个步骤。
- 引入用于组织关系数据的 Entityset API 和用于自动特征工程的 Featuretools DFS 方法。
- 描述标注、时间感知数据处理和预测工程,以创建训练样本。
- 将成本驱动的模型搜索方法形式化,包含显式的超参数和特定领域评估。
- 提供端到端的面向 API 的实现,支持增量数据、生产测试和部署。
- 发布并参考工具,如 Featuretools、Entityset、metadata.json、model_provenance.json 和 ATM,以使 ML 2.0 的落地成为现实。
实验结果
研究问题
- RQ1如何实现端到端的数据驱动 ML 工作流的自动化,以缩短发现时间并降低对 ML 专家的依赖?
- RQ2标准化的基于 API 的框架(Entityset、DFS 和 AutoML)是否能够实现可部署模型的快速开发、验证和部署?
- RQ3哪些机制(时间索引、溯源元数据和基于成本的评估)能够在 ML 2.0 部署中确保可重复性和治理?
主要发现
- 一个为期 8 周的端到端流程可以使用可重复使用的 API 为先前尚未解决的问题交付一个可直接使用的模型。
- 通过 Entityset 和 Deep Feature Synthesis 的自动化实现对来自不同领域的关系型、时间数据的快速特征工程。
- 成本函数和明确的模型搜索流程允许进行超出标准指标的领域特定评估和模型选择。
- 生产就绪的工作流包括集成测试、生产验证以及具有共享 API 的部署步骤。
- 溯源和元数据模式(model_provenance.json、metadata.json)支持在 ML 部署中的漂移检测和可重复性。
- 作者发布了多个工具(Featuretools、Entityset、metadata.json、model_provenance.json、ATM),以在实践中实现 ML 2.0。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。