QUICK REVIEW

[論文レビュー] Snorkel DryBell: A Case Study in Deploying Weak Supervision at Industrial Scale

Stephen H. Bach, Daniel Rodríguez|arXiv (Cornell University)|Dec 2, 2018

Data Quality and Management参考文献 35被引用数 27

ひとこと要約

Snorkel DryBell は、ヒューリスティクス、モデル、知識ベースなどの多様な組織的知識リソースをノイズのあるラベルとして活用することで、広範な人為的アノテーションを必要とせずに高品質な機械学習分類器を訓練するスケーラブルな弱教師付き学習システムである。80,000件の手動ラベル付き例で訓練されたモデルと同等の分類器性能を達成し、非利用可能な知識をデプロイ可能なモデルに変換することで平均52%の性能向上を実現し、数分で数百万件のデータポイントにスケーリング可能である。

ABSTRACT

Labeling training data is one of the most costly bottlenecks in developing machine learning-based applications. We present a first-of-its-kind study showing how existing knowledge resources from across an organization can be used as weak supervision in order to bring development time and cost down by an order of magnitude, and introduce Snorkel DryBell, a new weak supervision management system for this setting. Snorkel DryBell builds on the Snorkel framework, extending it in three critical aspects: flexible, template-based ingestion of diverse organizational knowledge, cross-feature production serving, and scalable, sampling-free execution. On three classification tasks at Google, we find that Snorkel DryBell creates classifiers of comparable quality to ones trained with tens of thousands of hand-labeled examples, converts non-servable organizational resources to servable models for an average 52% performance improvement, and executes over millions of data points in tens of minutes.

研究の動機と目的

産業的機械学習応用における人為的アノテーションデータの高コストと長期的な開発期間を解消すること。
多様で既存の組織的知識リソースをラベリング関数として統合することで、弱教師付き学習の迅速かつスケーラブルなデプロイを可能にすること。
非利用可能な内部知識（例：バッチモデル、ヒューリスティクス）とリアルタイムで利用可能な生産用モデルの間のギャップを埋めること。
ラベル関数のテンプレートベースのインジェストを柔軟にサポートし、サンプリングを不要とするスケーラブルな推論を実現するシステムの開発。
弱教師付き学習が、実世界の生産環境において数万件の手動ラベル付き例で訓練されたモデルと同等の性能を達成できることを実証すること。

提案手法

本システムは、ヒューリスティクス、モデル、知識ベースなどの多様な組織的知識リソースをラベリング関数として統合できる、柔軟なテンプレートベースのインジェストレイヤーを採用している。
複数のラベリング関数の出力をモデル化することで、真のラベル分布を推定する生成モデルを採用しており、その中には放棄するかノイズの多い予測を行う関数も含まれる。
非利用可能な特徴（例：バッチ統計、高コストのモデル）から利用可能なリアルタイム特徴（例：ストリーミング信号）への知識の転送により、クロス特徴の生産サービングを実現している。
生成モデルにおける閉形式推論を活用することで、反復的サンプリングを不要とし、数百万件のデータポイントへの効率的スケーリングを可能としている。
分野の専門家（SME）とデータエンジニアの間で分離を実現しており、低レベルのシステムチューニングを必要とせずに、SMEが独立的かつ反復的にラベリング関数を定義できる。
弱教師付き学習を用いた分類器のエンドツーエンドのトレーニングとデプロイを可能としており、ラベルの競合や不確実性の推定を自動で処理している。

実験結果

リサーチクエスチョン

RQ1多様で既存の組織的知識リソースを用いた弱教師付き学習が、数万件の手動ラベル付き例で訓練されたモデルと同等の分類器性能を達成できるか。
RQ2非利用可能な組織的知識（例：バッチモデル、ヒューリスティクス）が、弱教師付き学習を介して、生産向けでリアルタイム対応のモデルにどの程度転送可能か。
RQ3Snorkel DryBell が、数百万件のデータポイントを含む産業的ワークロードに、低遅延と高精度を維持しながらどのようにスケーリングできるか。
RQ4小規模な手動ラベル付き開発セットに加えて複数の弱教師付き学習ソースを統合することで、どの程度の性能向上が達成できるか。
RQ5既存のデータパイプラインの大幅な再アーキテクチャを必要とせずに、弱教師付き学習システムを生産環境で大規模にデプロイ可能か。

主な発見

Snorkel DryBell が訓練した分類器は、80,000件の手動ラベル付き例で訓練されたモデルと同等の性能を達成し、ラベル付けコストを1桁削減した。
グーグルでの3つの実世界の分類タスクにおいて、わずか15,000件程度の手動ラベル付き例で訓練された分類器と比較して、F1スコアで平均11.5%の相対的向上を達成した。
非利用可能な組織的知識（例：バッチモデル、ヒューリスティクス）をデプロイ可能な生産用モデルに変換することで、平均52%の性能向上を実現した。
100万件を超えるデータポイントに対して30分未満で推論を実行し、高いスケーラビリティと低遅延実行を実証した。
分野の専門家（SME）とデータエンジニアの間で分離を成功させ、パフォーマンスのボトルネックが生じない迅速かつ反復的なラベリング関数の開発を可能にした。
Snorkel DryBell の生成モデルは、ノイズが多く相関するラベリング関数に対しても、ラベルの競合や不確実性を効果的に処理し、頑健な推論を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。