QUICK REVIEW

[論文レビュー] Revisiting Prompt Engineering via Declarative Crowdsourcing

Aditya Parameswaran, Shreya Shankar|arXiv (Cornell University)|Aug 7, 2023

Natural Language Processing Techniques被引用数 10

ひとこと要約

本論文は、LLMをノイズのあるオラクルとして扱い、宣言型クラウドソーシングの原則を借用して、コストと品質を意識した多段階のデータ処理ワークフローを生み出す宣言型プロンプトエンジニアリングを提案する。

ABSTRACT

Large language models (LLMs) are incredibly powerful at comprehending and generating data in the form of text, but are brittle and error-prone. There has been an advent of toolkits and recipes centered around so-called prompt engineering-the process of asking an LLM to do something via a series of prompts. However, for LLM-powered data processing workflows, in particular, optimizing for quality, while keeping cost bounded, is a tedious, manual process. We put forth a vision for declarative prompt engineering. We view LLMs like crowd workers and leverage ideas from the declarative crowdsourcing literature-including leveraging multiple prompting strategies, ensuring internal consistency, and exploring hybrid-LLM-non-LLM approaches-to make prompt engineering a more principled process. Preliminary case studies on sorting, entity resolution, and imputation demonstrate the promise of our approach

研究の動機と目的

生産データワークフローのためのプロンプトエンジニアリングに対する原理的で宣言型のアプローチを動機づける。
コストと精度の予算を考慮したユニットLLM呼び出しへタスクを分解する、宣言型クラウドソーシングのアイデアを活用する。
信頼性と効率を向上させるための多様な prompting、ハイブリッドの粗から精へ prompting、整合性の確保などの戦略を探る。
ソート、エンティティ解決、欠損値補完といったケーススタディでアプローチを実証する。

提案手法

ツールキット（例：LangChain）をラップする概念を提示し、予算と精度制約の下でデータプリミティブ（ソート、フィルタ、結合、分類、クラスタ、探索、補完、解決）をデータセットに適用する。
タスク分解、整合性確保、ハイブリッド非LLM代理を用いたコスト-精度のトレードオフ管理を含む、LLMワークフローへのクラウドソーシング原則の適用。
ソートの精度-コスト曲線を比較するため、単一タスク対ペアワイズ比較対評価の prompting 戦略を評価する。
大規模アイテム集合を扱い、幻覚を減らすための粗→精 prompting（ソート後に挿入）を提案する。
エンティティ解決のようなバッチタスクの内部整合性チェック（推移性の強制）を導入して精度を向上させる。
LLM使用を削減しつつ精度を維持・向上させるためのハイブリッドLLM/非LLM戦略（例：k-NN代理、埋め込み）を検討する。
クラウドソーシングにインスパイアされた品質管理メカニズム（検証セット、クロス-LLMチェック、デバイアス、キャリブレーション）を概説する。

実験結果

リサーチクエスチョン

RQ1宣言型クラウドソーシングの原則をプロンプトエンジニアリングに適用して、LLM搭載データワークフローのコストと精度のトレードオフを改善できるか。
RQ2クローズドエンドのデータタスクに対して、どの prompting 戦略とタスク分解がより良いスケーラビリティと信頼性をもたらすか。
RQ3粗→精 promptingと整合性確保を組み合わせることで、幻覚を減らし、低コストで精度を維持または向上できるか。
RQ4非-LLM代理と品質管理技術を統合して、生産ワークフローにおけるLLMの使用を最適化できるか。

主な発見

ソートのペアワイズ prompting は、ベースラインの単一プロンプトアプローチと比較して精度は高いがコストは高くなる。
粗→精のハイブリッド prompting（ソート、次に挿入）は、大規模アイテム集合での欠落を減らしつつ精度を劇的に向上させる。
ペアワイズ比較の推移性を用いた内部整合性の強制は、エンティティ解決タスクのF1スコアを高める。
非-LLM代理（例：k-NN、埋め込み）とLLMsを組み合わせたハイブリッドアプローチは、LLM使用コストを大幅に抑えつつ同等の精度を達成できる。
品質管理メカニズムと検証ベースの精度推定は、コストと精度のバランスを取る適応的クエリ戦略を支える。
実証的なケーススタディは、戦略ごとに異なるコスト-精度プロファイルを示し、複数のタスク分解を探る価値を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。