Skip to main content
QUICK REVIEW

[논문 리뷰] Exploring Prompt Engineering Practices in the Enterprise

Michael Desmond, Michelle Brachman|arXiv (Cornell University)|2024. 03. 13.
Software Engineering Techniques and Practices인용 수 7
한 줄 요약

본 연구는 57건의 기업 프롬프트 편집 세션을 분석하여 실무자가 프롬트를 어떻게 반복적으로 개선하는지와 가장 일반적인 구성 요소 및 편집 유형이 무엇인지 이해하고, 도구 및 설계에 대한 시사점을 제시한다.

ABSTRACT

Interaction with Large Language Models (LLMs) is primarily carried out via prompting. A prompt is a natural language instruction designed to elicit certain behaviour or output from a model. In theory, natural language prompts enable non-experts to interact with and leverage LLMs. However, for complex tasks and tasks with specific requirements, prompt design is not trivial. Creating effective prompts requires skill and knowledge, as well as significant iteration in order to determine model behavior, and guide the model to accomplish a particular goal. We hypothesize that the way in which users iterate on their prompts can provide insight into how they think prompting and models work, as well as the kinds of support needed for more efficient prompt engineering. To better understand prompt engineering practices, we analyzed sessions of prompt editing behavior, categorizing the parts of prompts users iterated on and the types of changes they made. We discuss design implications and future directions based on these prompt engineering practices.

연구 동기 및 목표

  • 기업 맥락에서 실무자가 LLM 프롬핑 세션 중에 프롬프트를 어떻게 반복적으로 편집하는지 이해한다.
  • 가장 자주 편집되는 프롬프트 구성 요소와 적용되는 편집 유형을 식별한다.
  • 편집 행동이 모델 전환, 맥락 사용, 작업 지시에 어떤 관계가 있는지 분석하여 도구 설계에 정보를 제공한다.

제안 방법

  • 약 3주 기간 동안 1,712명이 사용하는 내부 기업 LLM 프롬핑 플랫폼의 데이터를 수집하고 익명화한다.
  • 레코드 간 간격이 최소 20분인 구분을 사용하여 프롬프트 편집을 세션으로 분할한다.
  • 57개의 세션(1,523편집)에 대해 질적 분석을 수행하여 편집을 프롬프트 구성 요소 및 편집 유형별로 표기하고, 평가자 간 신뢰도 검사를 수행한다.
  • 프롬프트 구성 요소(예: 지시, 맥락, 레이블)와 편집 유형(예: 수정, 추가, 변경, 제거, 포맷팅)에 대한 코드북을 개발한다.
  • 되돌리기(undo/redo) 및 세션 사용 사례를 평가하여 편집의 지속성 및 결과를 이해한다.

실험 결과

연구 질문

  • RQ1기업 실무자들이 프롬핑 세션 동안 어떤 프롬프트 구성 요소를 가장 자주 편집하는가?
  • RQ2사용자가 적용하는 편집 유형(예: 수정, 추가)과 이러한 편집이 프롬프트 의미에 미치는 영향은 무엇인가?
  • RQ3편집 패턴이 기업 프롬핑 환경에서 모델 전환 및 매개변수 변경과 어떻게 연결되는가?
  • RQ4조직에서 프롬프트 엔지니어링을 지원하는 도구 설계에 편집 관행이 어떤 시사점을 주는가?

주요 결과

  • 프롬프트 편집 세션은 길어지는 경향이 있으며, 세션당 평균 43.4분, 중앙값 39분이다.
  • 제출 간 프롬프트 편집에 소요된 평균 시간은 47초(중앙값 32초)이다.
  • 세션의 93%가 하나 이상의 추론 매개변수 변경을 포함했으며, 대상 언어 모델이 가장 일반적으로 변경된 매개변수였다.
  • 평균적으로 세션당 3.6개 모델을 사용했으며(SD=2.7; 중앙값=3), 프롬프트 내에서 잦은 모델 전환을 시사한다.
  • 가장 일반적인 편집 유형은 수정(의미 유지)으로 그다음 추가와 의미 변화; 맥락과 작업 지시가 가장 많이 편집된 구성 요소였다.
  • 편집의 22%가 재제출 전에 다중 편집으로 적용되었고, 다중 편집의 68%는 최소 하나의 맥락 편집을 포함했으며 45%는 맥락 및 지시 편집을 모두 포함했다.
  • 편집의 11%가 되돌리기(undo/redo)였고, handle-unknown 및 output-length와 같은 특정 구성 요소에서 되돌리기 비율이 더 높았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.