Skip to main content
QUICK REVIEW

[論文レビュー] Exploring Prompt Engineering Practices in the Enterprise

Michael Desmond, Michelle Brachman|arXiv (Cornell University)|Mar 13, 2024
Software Engineering Techniques and Practices被引用数 7
ひとこと要約

この研究は、57の企業向けプロンプト編集セッションを分析し、実務者がプロンプトを反復的に洗練させる方法と、最も一般的な要素と編集を理解し、ツール設計への示唆を得る。

ABSTRACT

Interaction with Large Language Models (LLMs) is primarily carried out via prompting. A prompt is a natural language instruction designed to elicit certain behaviour or output from a model. In theory, natural language prompts enable non-experts to interact with and leverage LLMs. However, for complex tasks and tasks with specific requirements, prompt design is not trivial. Creating effective prompts requires skill and knowledge, as well as significant iteration in order to determine model behavior, and guide the model to accomplish a particular goal. We hypothesize that the way in which users iterate on their prompts can provide insight into how they think prompting and models work, as well as the kinds of support needed for more efficient prompt engineering. To better understand prompt engineering practices, we analyzed sessions of prompt editing behavior, categorizing the parts of prompts users iterated on and the types of changes they made. We discuss design implications and future directions based on these prompt engineering practices.

研究の動機と目的

  • エンタープライズ環境における実務者が、LLMプロンプト作成セッション中にプロンプトを反復的に編集する方法を理解する。
  • 最も頻繁に編集されるプロンプトの構成要素と適用される編集の種類を特定する。
  • プロンプト編集の振る舞いがモデルの切替、文脈の使用、タスク指示とどのように関連するかを分析し、ツール設計に情報を提供する。

提案手法

  • 約3週間にわたり、1,712人のユーザーが使用した内部のエンタープライズLLMプロンプティングプラットフォームからデータを収集し、匿名化する。
  • レコード間の休止が少なくとも20分ある区切りを用いて、プロンプト編集をセッションに区分する。
  • 57セッション(1,523件の編集)に対して質的分析を実施し、プロンプト構成要素と編集タイプで編集を分類し、異なる評価者間の信頼性を確認する。
  • プロンプト構成要素(例:instruction、context、labels)と編集タイプ(例:modified、added、changed、removed、formatted)のコードブックを作成する。
  • ロールバック(undo/redo)とセッションのユースケースを評価し、編集の耐久性と成果を理解する。

実験結果

リサーチクエスチョン

  • RQ1エンタープライズ実務者はプロンプト作成セッション中にどのプロンプト構成要素を最も頻繁に編集するか?
  • RQ2ユーザーはどのような編集タイプ(例:変更、追加)を適用し、これらの編集はプロンプトの意味にどのような影響を与えるか?
  • RQ3編集パターンはエンタープライズのプロンプティング環境におけるモデル切替やパラメータ変更とどのように関連しているか?
  • RQ4組織でのプロンプトエンジニアリングを支援するツール設計に編集実践がどのような影響を与えるか?

主な発見

  • プロンプト編集セッションは長時間になる傾向があり、1セッションあたりの平均は43.4分、中央値は39分。
  • 提出間のプロンプト編集に費やした平均時間は47秒(中央値32秒)。
  • セッションの93%に1つ以上の推論パラメータの変更が含まれ、対象言語モデルが最も頻繁に変更されるパラメータであった。
  • 平均してセッションは3.6モデルを使用(SD=2.7、中央値=3)、プロンプト内で頻繁にモデル切替が行われることを示している。
  • 最も一般的な編集タイプは修正(意味を維持)で、次いで追加と意味の変更が続く;文脈とタスク指示が最も編集された構成要素だった。
  • 編集の22%が再提出前に適用された複数編集で、複数編集の68%には少なくとも1つの文脈編集が含まれ、45%には文脈編集と指示編集の両方が含まれていた。
  • 編集の11%がロールバック(undo/redo)で、handle-unknownやoutput-lengthなど特定の構成要素でロールバック率が高かった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。