[논문 리뷰] Evaluating 5W3H Structured Prompting for Intent Alignment in Human-AI Interaction
본 논문은 다중 모델과 도메인에 걸쳐 렌더링된 PPS를 간단한 프롬프트 및 원시 JSON과 비교하여 사람-AI 상호작용에서 사용자 의도 정렬을 향상시키는 5W3H 기반 PPS 구조화 프롬 prompting 프레임워크를 평가합니다.
Natural language prompts often suffer from intent transmission loss: the gap between what users actually need and what they communicate to AI systems. We evaluate PPS (Prompt Protocol Specification), a 5W3H-based framework for structured intent representation in human-AI interaction. In a controlled three-condition study across 60 tasks in three domains (business, technical, and travel), three large language models (DeepSeek-V3, Qwen-Max, and Kimi), and three prompt conditions - (A) simple prompts, (B) raw PPS JSON, and (C) natural-language-rendered PPS - we collect 540 AI-generated outputs evaluated by an LLM judge. We introduce goal_alignment, a user-intent-centered evaluation dimension, and find that rendered PPS outperforms both simple prompts and raw JSON on this metric. PPS gains are task-dependent: gains are large in high-ambiguity business analysis tasks but reverse in low-ambiguity travel planning. We also identify a measurement asymmetry in standard LLM evaluation, where unconstrained prompts can inflate constraint adherence scores and mask the practical value of structured prompting. A preliminary retrospective survey (N = 20) further suggests a 66.1% reduction in follow-up prompts required, from 3.33 to 1.13 rounds. These findings suggest that structured intent representations can improve alignment and usability in human-AI interaction, especially in tasks where user intent is inherently ambiguous.
연구 동기 및 목표
- 구조화된 의도 표현이 사용자 목표와 AI 산출물 간의 정렬에 어떤 영향을 미치는지 다룬다.
- 다양한 작업과 도메인에 걸쳐 5W3H 기반 PPS 프롬프트의 성능을 간단한 프롬프트 및 원시 JSON과 비교하여 정량화한다.
- 향상 효과의 작업 의존성 및 LLM 평가에서 나타날 수 있는 잠재적 측정 편향을 조사한다.
- PPS가 상호작용 효율성에 미치는 영향에 대한 예비 사용자 설문조사를 제공한다.
제안 방법
- 5W3H 기반 프레임워크인 PPS를 사용하여 의도를 구조화된 프롬프트로 표현한다.
- 세 가지 조건의 통제된 연구를 세 도메인에서 60개 작업으로 수행한다.
- 세 가지 프롬프트 조건(간단한 프롬프트, 원시 PPS JSON, 자연어 렌더링 PPS) 아래 세 가지 LLM으로부터 540개의 AI 산출물을 평가한다.
- 사용자 의도 중심의 정렬을 평가하기 위한 goal_alignment 지표를 개발한다.
- 정렬성 및 유용성 측면에서 출력물을 평가하기 위해 LLM 평가자를 사용한다.
- 후속 프롬프트에 관한 예비 회고 설문조사(N=20)를 포함한다.
실험 결과
연구 질문
- RQ1렌더링된 PPS가 목표 정렬 달성에 있어 간단한 프롬프트 및 원시 JSON과 비교했을 때 어떤 차이가 있는가?
- RQ2PPS의 이점은 작업 유형 및 도메인(비즈니스, 기술, 여행) 전반에 걸쳐 일관적인가?
- RQ3구조화된 프롬프트가 표준 LLM 평가 척도에서 편향을 도입하거나 드러내는가?
- RQ4후속 프롬프트로 측정된 사용자 노력에 대한 PPS의 영향은 무엇인가?
주요 결과
- 렌더링된 PPS가 goal_alignment 지표에서 간단한 프롬프트 및 원시 JSON 모두를 능가한다.
- PPS 이점은 작업 의존적이다: 모호성이 높은 비즈니스 분석 작업에서 크고, 모호성이 낮은 여행 계획에서 반대이다.
- 표준 LLM 평가에서 측정 비대칭성이 존재하며, 제약이 없는 프롬프트가 제약 준수 점수를 부풀릴 수 있다.
- 예비 설문조사(N=20)는 후속 프롬프트가 3.33에서 1.13 라운드로 66.1% 감소함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.