Skip to main content
QUICK REVIEW

[論文レビュー] GFlowPO: Generative Flow Network as a Language Model Prompt Optimizer

Junmo Cho, Suhan Kim|arXiv (Cornell University)|Feb 3, 2026
Topic Modeling被引用数 0
ひとこと要約

GFlowPOはプロンプト最適化を事後推論として定式化し、オフポリシーGFlowNet訓練とダイナミックメモリ更新を用いて、さまざまなLMとタスクに対して高報酬プロンプトを効率的に発見する。

ABSTRACT

Finding effective prompts for language models (LMs) is critical yet notoriously difficult: the prompt space is combinatorially large, rewards are sparse due to expensive target-LM evaluation. Yet, existing RL-based prompt optimizers often rely on on-policy updates and a meta-prompt sampled from a fixed distribution, leading to poor sample efficiency. We propose GFlowPO, a probabilistic prompt optimization framework that casts prompt search as a posterior inference problem over latent prompts regularized by a meta-prompted reference-LM prior. In the first step, we fine-tune a lightweight prompt-LM with an off-policy Generative Flow Network (GFlowNet) objective, using a replay-based training policy that reuses past prompt evaluations to enable sample-efficient exploration. In the second step, we introduce Dynamic Memory Update (DMU), a training-free mechanism that updates the meta-prompt by injecting both (i) diverse prompts from a replay buffer and (ii) top-performing prompts from a small priority queue, thereby progressively concentrating the search process on high-reward regions. Across few-shot text classification, instruction induction benchmarks, and question answering tasks, GFlowPO consistently outperforms recent discrete prompt optimization baselines.

研究の動機と目的

  • 組合せ的なプロンプト空間とスパース報酬のため、自動的なプロンプト最適化を動機付ける。
  • プロンプト探索をメタプロンプト事前分布で正則化した事後推論として定式化する。
  • プロンプティングのためのサンプル効率の良いオフポリシーGFlowNet訓練 regimeを開発する。
  • 高報酬領域へ検索を適応的に集約するDynamic Memory Update (DMU)を導入する。
  • 多様なタスクとLM組み合わせに対して頑健性を実証する。

提案手法

  • D(z|D,M)に比例するプロンプトp(z|D,M)の事後分布を定義する(p(D|z) p_ref(z|M) に比例)。
  • リプレイベースのポリシーを用いたオフポリシーGFlowNet目標で軽量プロンプト-LMをファインチューニングする。
  • GFlowNet訓練にはVarGradベースのグローバルパス整合性損失をリプレイバッファ採取と共に用いる。
  • テスト性能との相関を高めるため、尤度を訓練精度A_D(z)に置換する。
  • メタプロンプトMをDynamic Memory Updateで更新し、リプレイバッファからのプロンプトと小さな高報酬バッファを混合する。
  • テキスト分類、指示誘導、質問応答の複数のプロンプト-LM/ターゲット-LMペアで評価する。
Figure 1 : Concepts. Blue contour indicates high performing prompt regions. (a) Existing on-policy RL frameworks fail to explore the huge combinatorial search space with poor sample efficiency. (b) Our GFlowPO that can sample efficiently explore the search space by gradually annealing the posterior
Figure 1 : Concepts. Blue contour indicates high performing prompt regions. (a) Existing on-policy RL frameworks fail to explore the huge combinatorial search space with poor sample efficiency. (b) Our GFlowPO that can sample efficiently explore the search space by gradually annealing the posterior

実験結果

リサーチクエスチョン

  • RQ1プロンプト探索をメタプロンプト事前分布の下での事後推論として効果的に再現できるか。
  • RQ2オフポリシーGFlowNet訓練は、オンポリシーRL法と比較して高報酬プロンプト発見のサンプル効率を改善するか。
  • RQ3訓練不要なDynamic Memory Update (DMU)は繰り返しで高報酬領域へ探索を効果的に集中させるか。
  • RQ4多様なタスクとLM組み合わせにおいて、few-shotおよび指示誘導設定でGFlowPOはどういう性能を示すか。

主な発見

MethodSST-2MRPCRTEQNLIMNLISNLIAverage
Fine-Tuning71.959.655.763.141.164.859.3
Soft prompt tuning78.357.151.689.034.955.861.1
Fixed prompt Manual Prompt89.151.064.073.067.047.065.2
Zero-shot CoT57.938.481.675.271.166.365.1
Few-shot prompt55.049.076.082.058.052.262.0
Discrete Prompt Tuning GrIPS84.7 ± 4.655.6 ± 2.660.9 ± 3.528.9 ± 1.244.4 ± 1.163.5 ± 2.359.4
PromptBoosting65.4 ± 1.052.7 ± 1.171.6 ± 0.971.6 ± 1.135.5 ± 1.452.6 ± 1.858.2
APE83.2 ± 7.755.3 ± 4.978.6 ± 1.375.0 ± 2.254.6 ± 7.972.3 ± 4.870.1
ProTeGi69.2 ± 8.448.8 ± 1.373.2 ± 6.374.2 ± 7.756.6 ± 10.961.3 ± 12.364.0
RLprompt70.8 ± 6.556.0 ± 1.567.3 ± 2.562.6 ± 1.354.6 ± 1.956.6 ± 1.361.3
StablePrompt92.5 ± 1.371.3 ± 3.481.5 ± 2.875.9 ± 1.463.3 ± 1.274.1 ± 1.476.4
GFlowPO93.0 ± 0.669.6 ± 4.282.0 ± 2.580.2 ± 3.468.7 ± 3.278.6 ± 2.778.7
  • GFlowPOは六つのfew-shotテキスト分類データセットにおいて、報告TABLE 1の比較で最も高い平均精度を達成した。
  • GFlowPOはSST-2、RTE、SNLIでベースラインを上回り、QNLIとSNLIではタスク/LMペア間で競合または最良の成績を示した。
  • 指示誘導およびBBIIタスク全般で、テキスト生成タスクを含む厳密なトークン一致を要するタスクでも、平均精度でベースラインを一貫して上回った。
  • QAタスク(MMLUおよびOpenBookQA)では、OpenBookQAスコアで最高、MMLU結果も競合的。
  • アブレーション実験でオフポリシー訓練とDMUの両方が加法的に寄与し、DMUはオフポリシー学習と組み合わせた場合に顕著な利得をもたらした。
  • 訓練精度曲線は、GFlowPOがStablePromptよりも高報酬プロンプトをより効率的に発見することを示している。
Figure 2 : GFlowPO pipeline. The optimizer prompt-LM samples prompts conditioned on meta-prompt $M$ , the target LLM provides rewards, and off-policy GFlowNet training plus Dynamic Memory Update (DMU) iteratively improves exploration and prompt quality.
Figure 2 : GFlowPO pipeline. The optimizer prompt-LM samples prompts conditioned on meta-prompt $M$ , the target LLM provides rewards, and off-policy GFlowNet training plus Dynamic Memory Update (DMU) iteratively improves exploration and prompt quality.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。