[論文レビュー] Who Needs MLOps: What Data Scientists Seek to Accomplish and How Can MLOps Help?
本論文は63か国の331名のML専門家を調査し、データサイエンティストの活動がMLOpsとどのように関係するかを評価しています。データの問題が初期段階を支配する一方、頻繁な再訓練と本番配備済みモデルを持つ組織ではMLOpsの利点が現れます。
Following continuous software engineering practices, there has been an increasing interest in rapid deployment of machine learning (ML) features, called MLOps. In this paper, we study the importance of MLOps in the context of data scientists' daily activities, based on a survey where we collected responses from 331 professionals from 63 different countries in ML domain, indicating on what they were working on in the last three months. Based on the results, up to 40% respondents say that they work with both models and infrastructure; the majority of the work revolves around relational and time series data; and the largest categories of problems to be solved are predictive analysis, time series data, and computer vision. The biggest perceived problems revolve around data, although there is some awareness of problems related to deploying models to production and related procedures. To hypothesise, we believe that organisations represented in the survey can be divided to three categories -- (i) figuring out how to best use data; (ii) focusing on building the first models and getting them to production; and (iii) managing several models, their versions and training datasets, as well as retraining and frequent deployment of retrained models. In the results, the majority of respondents are in category (i) or (ii), focusing on data and models; however the benefits of MLOps only emerge in category (iii) when there is a need for frequent retraining and redeployment. Hence, setting up an MLOps pipeline is a natural step to take, when an organization takes the step from ML as a proof-of-concept to ML as a part of nominal activities.
研究の動機と目的
- 実務の組織でのデータサイエンティストの日常業務におけるMLOpsの役割を評価する。
- ML成熟段階を特徴づけ、それがMLOpsの採用へどのようにマッピングされるかを説明する。
- ML運用に最も関連するデータの種類、問題、展開実践を特定する。
提案手法
- オンライン調査(State of ML 2020)を63か国の331名のML専門家に対して実施する。
- 現在の業務の焦点、データの種類、解決された問題、近未来の目標(3か月)を問う。
- 認識される障害を評価し、組織をデータ中心・モデル中心・パイプライン中心のML成熟度で分類する。
- ML成熟度とMLOpsの必要性との相関を分析する。
- 概念実証から本番運用ML operationsへの移行に関する洞察を提示する。
実験結果
リサーチクエスチョン
- RQ1データサイエンティストは日々のML活動で何に取り組んでいますか?
- RQ2データの種類と問題領域はMLOpsのニーズとどのように関連しますか?
- RQ3組織はML成熟度にどのように差があり、それがMLOpsの採用と利点にどう影響しますか?
- RQ4直面する主な障害は何で、MLOpsはいつ最も価値を提供しますか?
主な発見
- 回答者の最大40%がモデルとインフラストラクチャの両方を扱っています。
- 多くの作業はリレーショナルデータと時系列データを中心に行われます。
- 最大の問題カテゴリは予測分析、時系列データ、コンピュータビジョンです。
- データに関連する問題(乱雑さのあるデータ、データ不足、アクセス制約など)が最大の課題です。展開に関連する問題は成熟したパイプライン中心のコンテキストを除いてはあまり顕著ではありません。
- 多くの回答者はデータ中心またはモデル中心の段階にあり、頻繁な再訓練と展開を特徴とするパイプライン中心はそれほど一般的ではないですが、ここでMLOpsは明確な価値を加えます。
- 先駆的でパイプライン中心の組織は比較的大規模(スケールアップ/エンタープライズ)で、インフラとモデリングの両方の concerns を含むチームを有する傾向があります。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。