QUICK REVIEW

[論文レビュー] Prompt Optimization Via Diffusion Language Models

Shiyu Wang, Haolin Chen|arXiv (Cornell University)|Jan 30, 2026

Topic Modeling被引用数 0

ひとこと要約

この論文は、拡散型言語モデル（DLM）フレームワークを用いて、マスクされたノイズ除去を通じてシステムプロンプトを反復的に refined し、相互作用の痕跡に条件付けることで、勾配情報へアクセスできない凍結済みの下流LLMの性能を向上させる。

ABSTRACT

We propose a diffusion-based framework for prompt optimization that leverages Diffusion Language Models (DLMs) to iteratively refine system prompts through masked denoising. By conditioning on interaction traces, including user queries, model responses, and optional feedback, our method enables flexible, span-level prompt updates without requiring gradient access or modifying the downstream language model. Across diverse benchmarks (e.g., $τ$-bench, SST-2, SST-5), DLM-optimized prompts consistently improve the performance of a frozen target LLM (e.g., GPT-4o-mini). We further show that moderate diffusion step counts provide the best balance between refinement quality and stability. These results highlight diffusion-based prompt optimization as a general, model-agnostic, and scalable approach for enhancing LLM performance through iterative prompt refinement.

研究の動機と目的

動的でフィードバック駆動型のプロンプト最適化のための拡散ベースのアプローチを動機づけ、開発する。
下流モデルの勾配にアクセスせず、ターゲットのシステムプロンプトを span レベルで更新できるようにする。
DLMベースのプロンプト refined の一般性とスケーラビリティを多様なタスクで実証する。
拡散ステップ数がプロンプト refined の品質と安定性に与える影響を分析する。

提案手法

相互作用 traces 内のシステムプロンプトのターゲット span をマスクして denoise するために Diffusion Language Models を利用する。
denoising プロセスをユーザークエリ、モデル出力、任意のフィードバックに条件付ける。
固定回数の反復で、ターゲットLLMを変更せずにマスクされたシステムプロンプトを反復的に refine する。
複数のベンチマークにおいて、DLMベースのプロンプト最適化を自己回帰型および勾配ベースのプロンプト法と比較評価する。
refinement 品質と安定性に対する拡散ステップ数の変化の影響を調査する。

実験結果

リサーチクエスチョン

RQ1DLM は相互作用 traces に応じて span を反復的にマスク・ refine することでシステムプロンプトを効果的に最適化できるか？
RQ2拡散ベースのプロンプト最適化は凍結済みの下流LLM のさまざまなタスクで性能を改善するか？
RQ3 refinement 品質と安定性のバランスを取る最適な拡散ステップ数の範囲はどこか？
RQ4DLMベースのプロンプト最適化は autoregressive および勾配ベースのプロンプト編集法と比較してどうか？
RQ5このアプローチは function-calling、感情分析、意味的類似性、NLI タスクに対して一般化可能か？

主な発見

Model	Tau-bench-airline	Tau-bench-retail	SST2	SST5	MRPC	SNLI
Dream-7B	0.50	0.46	0.97	0.67	0.69	0.93
Llama3-8B	0.41	0.42	0.96	0.63	0.69	0.92
Qwen3-8B	0.42	0.46	0.96	0.65	0.69	0.92
TextGrad	0.50	0.45	0.97	0.67	0.70	0.93
Baseline	0.43	0.42	0.93	0.55	0.61	0.88

DLMベースのプロンプト最適化は、ベースラインと比較して評価されたすべての領域で性能向上をもたらす。
Dream-7B は推論および構造化生成タスク（例：SST-5、MRPC、SNLI）で顕著な改善を達成。
ARプロンプト最適化器およびTextGradと比較して、DLM最適化はモデルの勾配を必要とせず、競争力のあるまたは優れた向上を示す。
SST-5 のパフォーマンスは DLM プロンプトにより 0.55 から 0.67 に向上。
最適な拡散ステップはおおよそ 64 で、 refinement 品質と安定性のバランスを提供し、それを超えると得られる収穫は次第に小さくなる。
プロンプト更新はシステムプロンプトの一部のみをマスキングすることで実行可能であり、ターゲットモデルを変更せず span レベル編集を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。