[论文解读] HiFlow: Hierarchical Feedback-Driven Optimization for Constrained Long-Form Text Generation
HiFlow 引入一个层级化、基于奖励的框架,联合优化规划与生成,并结合约束感知反馈,以在各自端背骨上提升受约束的长文本生成质量。
Large language models perform well in short text generation but still struggle with long text generation, particularly under complex constraints. Such tasks involve multiple tightly coupled objectives, including global structural consistency, local semantic coherence, and constraint feasibility, forming a challenging constrained optimization problem. Existing approaches mainly rely on static planning or offline supervision, limiting effective coordination between global and local objectives during generation. To address these challenges, we propose HiFlow, a hierarchical feedback-driven optimization framework for constrained long text generation. HiFlow formulates generation as a two-level optimization process, consisting of a planning layer for global structure and constraint modeling, and a generation layer for conditioned text generation. By incorporating constraint-aware plan screening and closed-loop feedback at both levels, HiFlow enables joint optimization of planning quality and generation behavior, progressively guiding the model toward high-quality, constraint-satisfying outputs. Experiments on multiple backbones confirm HiFlow's effectiveness over baseline methods.
研究动机与目标
- 解决在多种耦合约束下生成长文本的困难(全局结构、局部连贯性、约束可行性)。
- 提出一种工作流,通过反馈信号联合优化规划与生成,以自适应引导输出满足约束并达到高质量。
- 将生成分解为具备约束感知的层级规划与生成,具备规划阶段的筛选与基于回合的奖励。
- 在多条背骨(Qwen2.5 系列,LLaMA3.1-8B)上展示鲁棒性与可扩展性,并与 CogWriter 与 LongWriter 等基线进行比较。
提出的方法
- 将受约束的长文本生成形式化为两层优化:用于全局结构与约束建模的规划层,以及用于条件文本生成的生成层。
- 采用具备约束感知的层级规划,提供候选计划并通过局部精化修复违反的子计划。
- 在进入生成阶段前应用二元相关性筛选以评估计划可行性。
- 通过回合制的奖励评估来估计计划与生成的长期质量和对约束的满足情况。
- 在规划与生成层面同时使用奖励引导的直接偏好优化(DPO)框架进行联合优化。
- 通过多阶段的触发信号与反馈(规划、生成、精炼)来使输出与任务目标保持一致。
实验结果
研究问题
- RQ1RQ1: 相比基线方法,HiFlow 在受约束的长文本生成任务上提升了多少模型性能?
- RQ2RQ2: 通过消融研究,HiFlow 的规划与生成组件各自有多大贡献?
- RQ3RQ3: 具备约束感知的工作流设计对约束满足有何影响?
- RQ4RQ4: 自适应工作流优化在面对演化约束时是否能提升鲁棒性?
- RQ5RQ5: 反馈耦合的协同是否提升整体生成质量?
主要发现
| 方法 | 文本质量(叙述) | 文本质量(记忆) | 文本质量(时间) | 文本质量(情感) | 文本质量(平均) | 约束准确性(一次) | 约束准确性(范围) | 约束准确性(周期) | 约束准确性(平均) |
|---|---|---|---|---|---|---|---|---|---|
| Qwen2.5-0.5B-Instruct | 66.44 ± 0.25 | 66.13 ± 0.62 | 64.88 ± 1.90 | 76.13 ± 0.01 | 68.39 ± 1.01 | 23.46 ± 1.59 | 16.60 ± 1.52 | 15.69 ± 0.54 | 18.58 ± 0.75 |
| + CogWriter | 74.75 ± 0.54 | 75.13 ± 0.82 | 72.19 ± 0.47 | 90.38 ± 0.91 | 78.11 ± 0.63 | 26.61 ± 0.98 | 19.50 ± 0.30 | 17.70 ± 0.24 | 20.78 ± 0.21 |
| + LongWriter | 74.63 ± 0.76 | 74.88 ± 0.39 | 71.69 ± 0.68 | 90.00 ± 0.55 | 77.80 ± 0.84 | 21.01 ± 0.30 | 19.29 ± 0.11 | 15.83 ± 0.20 | 18.71 ± 0.13 |
| + HiFlow (ours) | 75.13 ± 0.42 | 74.88 ± 0.61 | 73.19 ± 0.35 | 90.88 ± 0.48 | 78.52 ± 0.27 | 28.01 ± 0.55 | 18.53 ± 0.10 | 15.80 ± 0.28 | 22.11 ± 0.31 |
- HiFlow 在多条背骨上,在文本质量与约束遵循度方面均显著优于基线。
- 同时训练规划与生成,能在不牺牲文本质量的前提下实现最佳的约束满足。
- 具备约束感知的工作流设计在复杂约束(如范围、周期性)下带来明显提升。
- 自适应工作流优化在适度开销下实现更高的准确性,优于静态管线。
- 反馈耦合的协同可实现阶段性稳定提升,且奖励动态与约束满足呈相关关系。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。