QUICK REVIEW

[論文レビュー] SEED: Domain-Specific Data Curation With Large Language Models

Zui Chen, Lei Cao|arXiv (Cornell University)|Oct 1, 2023

Data Quality and Management被引用数 8

ひとこと要約

SEED は、コード、小規模モデル、およびデータアクセスモジュールを組み合わせてドメイン固有のデータキュレーションパイプラインを自動生成する LLM-アズ-コンパイラシステムであり、LLM の使用を削減しつつ性能を向上させる。

ABSTRACT

Data curation tasks that prepare data for analytics are critical for turning data into actionable insights. However, due to the diverse requirements of applications in different domains, generic off-the-shelf tools are typically insufficient. As a result, data scientists often have to develop domain-specific solutions tailored to both the dataset and the task, e.g. writing domain-specific code or training machine learning models on a sufficient number of annotated examples. This process is notoriously difficult and time-consuming. We present SEED, an LLM-as-compiler approach that automatically generates domain-specific data curation solutions via Large Language Models (LLMs). Once the user describes a task, input data, and expected output, the SEED compiler produces a hybrid pipeline that combines LLM querying with more cost-effective alternatives, such as vector-based caching, LLM-generated code, and small models trained on LLM-annotated data. SEED features an optimizer that automatically selects from the four LLM-assisted modules and forms a hybrid execution pipeline that best fits the task at hand. To validate this new, revolutionary approach, we conducted experiments on $9$ datasets spanning over $5$ data curation tasks. In comparison to solutions that use the LLM on every data record, SEED achieves state-of-the-art or comparable few-shot performance, while significantly reducing the number of LLM calls.

研究の動機と目的

ドメイン固有のデータキュレーションの時間とコストを、 tailored solutions の現場生成により削減する動機付け。
コード、小規模モデル、およびデータアクセスモジュールを組み合わせた実行可能なパイプラインを生成する LLM ベースのコンパイラを開発する。
難易度の高いケースに対しては LLM の呼び出しを選択的に行い、ほとんどのレコードを処理するモジュールを orchestration することで、 per-record LLM 呼び出しへの依存を制限する。
ドメイン知識と任意のツールを活用して、多様なキュレーションタスクに対するモジュール選択と計画生成を導く。

提案手法

SEED は二段階のコンパイルを採用する： (a) ユーザー設定からデータキュレーション計画を作成、(b) モジュールを構築し実行可能なパイプラインを組み立てる。
モジュールはコード、小規模モデル、データアクセスインターフェースを含む；モジュールは必要に応じて個別レコードに対して直接 LLM を呼び出すことがある。
コード生成は LLM アドバイザー、LLM コード生成器、検証器による助言と検証で行い、反復的な洗練を可能にする。
コードエンセmbles は、多様な助言とテストケースに分岐する進化アルゴリズムを用いて、複雑な論理に対処するよう進化させられる。
モデル生成は LLM を注釈者として使用して小規模モデルを作成する、埋め込みベースのリトリーバルの凍結版や LLM 応答からの蒸留を含む。
データアクセスモジュールはデータベースからの効率的な取得を可能にし、他のモジュールが LLM の推論を補助するツールとして利用できる。

Figure 1 . Architecture of the SEED system, using an entity resolution task as example.

実験結果

リサーチクエスチョン

RQ1SEED はタスク記述とデータセットから自動的にドメイン固有のデータキュレーションソリューションを手動のコーディングや大量ラベリングなしでコンパイルできるか。
RQ2生成されたドメイン固有モジュール（コード、小規模モデル、データアクセス）は、複数のタスクにおいて一般的なアプローチや手動でキュレーションされたベースラインと比較してどれほど効果的か。
RQ3コードエンセmbles、データアクセス、凍結モデルなど、LLM の使用を抑えつつ精度を保つ戦略はどれか。
RQ4二段階の SEED パイプラインは、データクリーニング、抽出、注釈付け、エンティティ解決、発見といったタスクとデータの特性に対応してモジュール構成をどう適応させるか。

主な発見

SEED によって生成されたドメイン固有ソリューションは、九つのデータセットと五つのデータキュレーションタスク全体で、汎用的な counterparts を大幅に上回る。
SEED は、ラベル付き例が数千にも及ぶ手動で整えられたソリューションの性能にしばしば近づく。
全レコードに対して LLM を呼び出すアプローチと比較して、SEED は少数ショットで最先端または同等レベルの性能を、はるかに少ない LLM 呼び出し回数で達成する。
コード生成は、助言と検証のループおよび複雑な論理を堅牢に処理するコードエンセmblesの進化を採用する。
LLM の注釈から作成された小規模モデルは、高価な LLM 推論への依存を減らす。
クエリのバッチ処理と反復的なツール呼び出しを備えたデータアクセスモジュールは、コストを substantially 下げつつ精度を向上させる。

Figure 2 . Advised code generation with validation.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。