[論文レビュー] HiFlow: Hierarchical Feedback-Driven Optimization for Constrained Long-Form Text Generation
HiFlow は階層的で報酬導向のフレームワークを導入し、制約に対応したフィードバックを用いて計画と生成を同時に最適化し、バックボーン間での制約付き長文生成の整合性を向上させる。
Large language models perform well in short text generation but still struggle with long text generation, particularly under complex constraints. Such tasks involve multiple tightly coupled objectives, including global structural consistency, local semantic coherence, and constraint feasibility, forming a challenging constrained optimization problem. Existing approaches mainly rely on static planning or offline supervision, limiting effective coordination between global and local objectives during generation. To address these challenges, we propose HiFlow, a hierarchical feedback-driven optimization framework for constrained long text generation. HiFlow formulates generation as a two-level optimization process, consisting of a planning layer for global structure and constraint modeling, and a generation layer for conditioned text generation. By incorporating constraint-aware plan screening and closed-loop feedback at both levels, HiFlow enables joint optimization of planning quality and generation behavior, progressively guiding the model toward high-quality, constraint-satisfying outputs. Experiments on multiple backbones confirm HiFlow's effectiveness over baseline methods.
研究の動機と目的
- 複数の結合制約(グローバル構造、局所的一貫性、制約妥当性)下で長文生成の難しさに対処する。
- フィードバック信号を介して計画と生成を共同最適化するワークフローを提案し、出力を制約満足と高品質へ適応的に導く。
- 計画レベルのスクリーニングとロールアウトベースの報酬を伴う、制約を考慮した階層的な計画と生成への分解。
- 複数のバックボーン(Qwen2.5 系列、LLaMA3.1-8B)およびCogWriterやLongWriterなどのベースラインと比較してロバスト性とスケーラビリティを実証する。
提案手法
- 制約付き長文生成を、グローバル構造と制約モデリングの計画層と、条件付きテキスト生成の生成層という二層最適化として定式化する。
- 候補計画と局所的な洗練を用いた階層的な計画で、違反したサブ計画を修正できるようにする。
- 生成へ進む前に計画の妥当性を二値的関連性フィルタリングで絞り込む。
- 長期的な品質と制約満足度を見積もるために、計画と生成の両方に対するロールアウトベースの報酬評価を適用する。
- 計画と生成を報酬誘導型の直接的好み最適化(DPO)フレームワークで共同最適化する(計画レベルと生成レベルの双方)。
- プランニング、生成、洗練の複数段階でトリガー信号とフィードバックを活用し、出力をタスク目標に沿わせる。
実験結果
リサーチクエスチョン
- RQ1RQ1: HiFlow は制約付き長文生成においてベースライン手法と比べてモデル性能をどれだけ改善するか?
- RQ2RQ2: アブレーション研究で示されるように、HiFlow の計画と生成の構成要素はどれくらい効果的か?
- RQ3RQ3: 制約を考慮したワークフロー設計は制約満足度にどのような影響を与えるか?
- RQ4RQ4: 適応的なワークフロー最適化は、進化する制約下でロバスト性を向上させうるか?
- RQ5RQ5: フィードバック連携による協調は全体的な生成品質を高めるか?
主な発見
| Method | Text Quality (Narr.) | Text Quality (Memory) | Text Quality (Temporal) | Text Quality (Affect.) | Text Quality (Avg) | Constraint Accuracy (Once) | Constraint Accuracy (Range) | Constraint Accuracy (Peri) | Constraint Accuracy (Avg) |
|---|---|---|---|---|---|---|---|---|---|
| Qwen2.5-0.5B-Instruct | 66.44 ± 0.25 | 66.13 ± 0.62 | 64.88 ± 1.90 | 76.13 ± 0.01 | 68.39 ± 1.01 | 23.46 ± 1.59 | 16.60 ± 1.52 | 15.69 ± 0.54 | 18.58 ± 0.75 |
| + CogWriter | 74.75 ± 0.54 | 75.13 ± 0.82 | 72.19 ± 0.47 | 90.38 ± 0.91 | 78.11 ± 0.63 | 26.61 ± 0.98 | 19.50 ± 0.30 | 17.70 ± 0.24 | 20.78 ± 0.21 |
| + LongWriter | 74.63 ± 0.76 | 74.88 ± 0.39 | 71.69 ± 0.68 | 90.00 ± 0.55 | 77.80 ± 0.84 | 21.01 ± 0.30 | 19.29 ± 0.11 | 15.83 ± 0.20 | 18.71 ± 0.13 |
| + HiFlow (ours) | 75.13 ± 0.42 | 74.88 ± 0.61 | 73.19 ± 0.35 | 90.88 ± 0.48 | 78.52 ± 0.27 | 28.01 ± 0.55 | 18.53 ± 0.10 | 15.80 ± 0.28 | 22.11 ± 0.31 |
- HiFlow は複数のバックボーンで、テキスト品質と制約追従性の両方で一貫してベースラインを上回る。
- 計画と生成を jointly 学習させることで、テキスト品質を犠牲にすることなく最も高い制約満足度を達成できる。
- 制約を意識したワークフロー設計は、特に複雑な制約(レンジ、周期的)下で明確な利得をもたらす。
- 適応的なワークフロー最適化は、静的パイプラインよりも適度なオーバーヘッドで高い正確性を達成する。
- フィードバック連携の協調は段階的な安定した改善と、制約満足度との相関報酬ダイナミクスを生み出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。