QUICK REVIEW

[논문 리뷰] Prompt Optimization Via Diffusion Language Models

Shiyu Wang, Haolin Chen|arXiv (Cornell University)|2026. 01. 30.

Topic Modeling인용 수 0

한 줄 요약

이 논문은 상호작용 트레이스에 조건화된 마스크된 디노이징을 사용해 시스템 프롬트를 반복적으로 정제하는 확산 언어 모델(DLM) 프레임워크를 도입하여 그래디언트에 접근할 수 없는 상태로 고정된 다운스트림 LLM을 향상한다.

ABSTRACT

We propose a diffusion-based framework for prompt optimization that leverages Diffusion Language Models (DLMs) to iteratively refine system prompts through masked denoising. By conditioning on interaction traces, including user queries, model responses, and optional feedback, our method enables flexible, span-level prompt updates without requiring gradient access or modifying the downstream language model. Across diverse benchmarks (e.g., $τ$-bench, SST-2, SST-5), DLM-optimized prompts consistently improve the performance of a frozen target LLM (e.g., GPT-4o-mini). We further show that moderate diffusion step counts provide the best balance between refinement quality and stability. These results highlight diffusion-based prompt optimization as a general, model-agnostic, and scalable approach for enhancing LLM performance through iterative prompt refinement.

연구 동기 및 목표

동적이고 피드백 주도적인 프롬프트 최적화를 위한 확산 기반 접근법의 동기 부여와 개발.
다운스트림 모델을 수정하거나 그레이디언트에 접근하지 않고도 span 단위의 시스템 프롬트 업데이트를 가능하게 한다.
다양한 작업에서 DLM 기반 프롬프트 정제의 일반성과 확장성을 입증한다.
프롬프트 정제 품질과 안정성에 미치는 확산 단계의 영향을 분석한다.

제안 방법

상호작용 트레이스 내에서 시스템 프롬트의 대상 Span을 마스킹하고 디노이즈를 제거하기 위해 Diffusion Language Models를 활용한다.
사용자 쿼리, 모델 출력 및 선택적 피드백에 조건화하여 디노이징 프로세스를 제어한다.
대상 LLM을 바꾸지 않고 고정된 횟수의 반복에서 마스킹된 시스템 프롬트를 반복적으로 정제한다.
다수의 벤치마크에서 DLM 기반 프롬프트 최적화를 자기회귀 및 그래디언트 기반 프롬프트 방법과 비교 평가한다.
정제 품질과 안정성에 대한 다양한 확산 단계 수의 효과를 조사한다.

실험 결과

연구 질문

RQ1DLM이 상호작용 트레이스에 응답하여 Span을 반복적으로 마스킹하고 정제함으로써 시스템 프롬트를 효과적으로 최적화할 수 있는가?
RQ2확산 기반 프롬프트 최적화가 고정된 다운스트림 LLM의 성능을 다양한 작업에서 향상시키는가?
RQ3정제 품질과 안정성의 균형을 맞추기 위한 최적의 확산 단계 범위는 무엇인가?
RQ4DLM 기반 프롬프트 최적화와 자기회귀 및 그래디언트 기반 프롬프트 편집 방법은 어떻게 비교되는가?
RQ5함수 호출, 감성 분석, 의미 유사도, NLI 작업 전반에 걸쳐 이 접근법이 일반화 가능한가?

주요 결과

모델	Tau-bench-airline	Tau-bench-retail	SST2	SST5	MRPC	SNLI
Dream-7B	0.50	0.46	0.97	0.67	0.69	0.93
Llama3-8B	0.41	0.42	0.96	0.63	0.69	0.92
Qwen3-8B	0.42	0.46	0.96	0.65	0.69	0.92
TextGrad	0.50	0.45	0.97	0.67	0.70	0.93
Baseline	0.43	0.42	0.93	0.55	0.61	0.88

DLM 기반 프롬프트 최적화가 평가된 모든 도메인에서 기준선 대비 성능 향상을 보인다.
Dream-7B는 추론 및 구조적 생성 작업(SST-5, MRPC, SNLI)에서 주목할 만한 개선을 달성했다.
AR 프롬프트 최적화기 및 TextGrad에 비해 DLM 최적화는 모델 그래디언트를 필요로 하지 않고도 경쟁력 있는 또는 우수한 이점을 보인다.
DLM 프롬프트로 SST-5의 성능이 0.55에서 0.67로 상승했다.
최적 확산 단계는 약 64에서 정제 품질과 안정성의 균형을 제공하며 그 이후에는 수익 감소가 나타난다.
타깃 모델을 바꾸지 않고도 시스템 프롬프트의 일부만 마스킹하여 스팬 레벨 편집을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.