[论文解读] TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners
TRIP-PAL 将 LLMs 与自动规划器结合,产生可行、最优的旅行计划,并具备约束保证,在规划质量上超越 GPT-4。
Travel planning is a complex task that involves generating a sequence of actions related to visiting places subject to constraints and maximizing some user satisfaction criteria. Traditional approaches rely on problem formulation in a given formal language, extracting relevant travel information from web sources, and use an adequate problem solver to generate a valid solution. As an alternative, recent Large Language Model (LLM) based approaches directly output plans from user requests using language. Although LLMs possess extensive travel domain knowledge and provide high-level information like points of interest and potential routes, current state-of-the-art models often generate plans that lack coherence, fail to satisfy constraints fully, and do not guarantee the generation of high-quality solutions. We propose TRIP-PAL, a hybrid method that combines the strengths of LLMs and automated planners, where (i) LLMs get and translate travel information and user information into data structures that can be fed into planners; and (ii) automated planners generate travel plans that guarantee constraint satisfaction and optimize for users' utility. Our experiments across various travel scenarios show that TRIP-PAL outperforms an LLM when generating travel plans.
研究动机与目标
- 把旅行规划建模为一个结合 POI 效用和现实世界约束的受限优化问题。
- 利用 LLMs 提取与旅行相关的数据,并将用户目标转化为规划器友好的表示。
- 通过自动规划组件保证约束满足并优化用户效用。
- 在旅行情境中探索超额订规划,并与仅使用 LLM 的规划进行对比。
- 展示在不同城市情景和 POI 集合上的可扩展性和鲁棒性。
提出的方法
- 使用连续的 GPT-4 提示提取 N 个 POI 及其效用、拜访时间和旅行时间。
- 在 PDDL 中将超额订规划问题表述为将 POI 作为软目标、效用作为优化目标。
- 通过 UPF 规划库将提取的数据转换为 PDDL,并用 AI 规划器(Fast Downward)求解以保证有效性和最优性。
- 可选地使用有效性检查和计划效用作为指标来比较 GPT-4 计划输出与 TRIP-PAL 计划。
- 在 20 个城市、不同 POI 数量和时段下进行评估,测量计划有效性、效用和运行时间。
实验结果
研究问题
- RQ1一个混合 LLM-规划器系统是否能够在最大化用户效用的同时保证有效、满足约束的旅行计划?
- RQ2超额订规划在旅行领域如何影响计划质量和可行性?
- RQ3在多样化城市情景下,将自动规划器整合进来是否能提升计划有效性和效用,相对于纯 LLM 方法?
主要发现
- TRIP-PAL 始终生成具有可行性保证的有效计划,且效用最优。
- GPT-4 的计划在硬性约束下通常无效,在相当数量的任务中观察到无效性。
- 在标准日程规划下,TRIP-PAL 在 100 个任务(每个城市 5 个问题,覆盖 20 个城市)中产出比 GPT-4 更高的计划效用。
- GPT-4 的计划在少数情况下可行,但在有效时,TRIP-PAL 的平均效用仍然更高。
- 随着 POI 或旅行时段的增加,GPT-4 的次优性相对于 TRIP-PAL 增长,且 TRIP-PAL 由于求解优化问题而带来规划时间开销。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。