[论文解读] DarwinTOD: LLM Driven Lifelong Self Evolution for Task Oriented Dialog Systems
DarwinTOD 提出一个将进化计算与大语言模型驱动的策略优化结合的终身自我进化的任务导向对话框框架,维护一个可进化的策略库,能够在不进行任务特定微调的情况下自主改进对话策略。
Traditional task-oriented dialog systems are unable to evolve from ongoing interactions or adapt to new domains after deployment, that is a critical limitation in real-world dynamic environments. Continual learning approaches depend on episodic retraining with human curated data, failing to achieve autonomy lifelong improvement. While evolutionary computation and LLM driven self improvement offer promising mechanisms for dialog optimization, they lack a unified framework for holistic, iterative strategy refinement. To bridge this gap, we propose DarwinTOD, a lifelong self evolving dialog framework that systematically integrates these two paradigms, enabling continuous strategy optimization from a zero-shot base without task specific fine-tuning. DarwinTOD maintains an Evolvable Strategy Bank and operates through a dual-loop process: online multi-agent dialog execution with peer critique, and offline structured evolutionary operations that refine the strategy bank using accumulated feedback. This closed-loop design enables autonomous continuous improvement without human intervention. Extensive experiments show that DarwinTOD surpasses previous state-of-the-art methods and exhibits continuous performance gains throughout evolution. Our work provides a novel framework for building dialog systems with lifelong self evolution capabilities.
研究动机与目标
- 在动态真实世界环境中说明任务导向对话(TOD)系统实现自主终身改进的必要性。
- 提出一个双回路的 DarwinTOD 框架,在不依赖人工数据标注或微调的情况下进化对话策略。
- 引入一个可进化的策略库(ESB)与结构化的离线-在线进化,随时间优化策略。
- 在标准 TOD 基准上展示最先进的性能,并通过进化实现持续提升。
提出的方法
- 将 TOD 形式化为部分可观测马尔可夫决策过程(POMDP),并将策略进化建模为马尔可夫链。
- 开发一个可进化的策略库(ESB),用于存储和管理竞争的对话策略。
- 实现在线执行,包含四个大语言模型代理(DST、DP、NLG、UserSim)以及基于玻尔兹曼分布的策略检索。
- 通过对话轨迹和评议收集离线反馈,以驱动四种进化算子(Genesis、Mutation、Consolidation、Pruning)。
- 采用双回路过程:在线多代理对话执行结合同行评议,同时离线进化以更新 ESB。
- 使用 MultiWOZ 2.0/2.1/2.2 和 SGD 数据集进行评估,并与强基线的 TOD 模型进行对比。
实验结果
研究问题
- RQ1 TOD 如何在无需任务特定微调或人工 curate 数据的情况下实现自主的终身自进化?
- RQ2一个可进化策略库结合双回路的在线-离线框架能否在多领域、长对话轮次的 TOD 任务中持续带来性能提升?
- RQ3进化算子与基于玻尔兹曼的选择对维持多样性和防止过早收敛在 TOD 策略中的影响?
- RQ4进化策略在领域内的专业化如何提升现实世界部署中的安全性、可解释性和用户体验?
主要发现
| 模型 | MultiWOZ 2.0 Inform | MultiWOZ 2.0 Succ. | MultiWOZ 2.0 BLEU | MultiWOZ 2.0 Combine | MultiWOZ 2.1 Inform | MultiWOZ 2.1 Succ. | MultiWOZ 2.1 BLEU | MultiWOZ 2.1 Combine | MultiWOZ 2.2 Inform | MultiWOZ 2.2 Succ. | MultiWOZ 2.2 BLEU | MultiWOZ 2.2 Combine |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| DarwinTOD (Llama3-8B) | 96.92 | 89.14 | 21.83 | 114.86 | 98.73 | 91.42 | 19.96 | 115.04 | 92.58 | 83.97 | 17.98 | 106.26 |
| DarwinTOD (Qwen2.5-7B) | 97.63 | 90.28 | 21.55 | 115.51 | 98.92 | 91.85 | 20.18 | 115.57 | 92.14 | 84.33 | 18.34 | 106.58 |
| DarwinTOD (Qwen3-8B) | 98.34 | 92.86 | 21.74 | 117.34 | 99.62 | 94.18 | 20.33 | 117.23 | 94.73 | 87.25 | 18.41 | 109.40 |
| DarwinTOD (GPT-5.1) | 99.10 | 96.20 | 22.94 | 120.59 | 99.40 | 96.50 | 22.19 | 120.14 | 96.48 | 90.12 | 21.98 | 115.28 |
- DarwinTOD 在 MultiWOZ 2.0/2.1/2.2 基准上取得了最先进的结果。
- 性能在代际间单调提升,表明实现了成功的终身进化。
- 在线推理结合同行评议和离线进化显著优于基线及消融实验。
- consolidation 与 pruning 使 ESB 保持紧凑,同时保留高性能策略。
- 基于玻尔兹曼的选择在探索与利用的平衡方面优于轮盘赌、随机和ε-贪婪变体。
- 人类研究表明,进化后的策略更安全、可解释,并提升真正用户的成功率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。