QUICK REVIEW

[论文解读] Language Conditioned Traffic Generation

Shuhan Tan, Boris Ivanovic|arXiv (Cornell University)|Jul 16, 2023

Autonomous Vehicle Technology and Safety被引用 9

一句话总结

LCTGen 是一个以语言为条件的交通场景生成模型，使用基于 GPT-4 的解释器、地图检索模块，以及基于查询的 transformer 生成器，从自然语言描述中生成逼真的交通场景，在真实感和可控性方面优于先前的方法。

ABSTRACT

Simulation forms the backbone of modern self-driving development. Simulators help develop, test, and improve driving systems without putting humans, vehicles, or their environment at risk. However, simulators face a major challenge: They rely on realistic, scalable, yet interesting content. While recent advances in rendering and scene reconstruction make great strides in creating static scene assets, modeling their layout, dynamics, and behaviors remains challenging. In this work, we turn to language as a source of supervision for dynamic traffic scene generation. Our model, LCTGen, combines a large language model with a transformer-based decoder architecture that selects likely map locations from a dataset of maps, and produces an initial traffic distribution, as well as the dynamics of each vehicle. LCTGen outperforms prior work in both unconditional and conditional traffic scene generation in terms of realism and fidelity. Code and video will be available at https://ariostgx.github.io/lctgen.

研究动机与目标

推动可通过自然语言控制的现实且可扩展的交通场景生成。
在没有语言-交通配对数据的情况下，能够生成与用户描述对齐的交通初始状态和动态。
利用语言模型推导紧凑的结构化表示并检索合适的地图。
开发一个端到端生成器，将地图和结构化描述整合为完整的交通轨迹。
展示在指令化编辑和可控策略评估中的适用性。

提出的方法

解释器使用带有上下文学习和思路链提示的 GPT-4，将自然语言输入转化为紧凑的结构化表示 z。
检索从真实地图数据集中挑选最匹配结构化表示 z 与目标场景的地图区域。
生成器是一个基于查询的 transformer，输入地图特征和代理查询，在单次前向传播中联合建模代理-代理与代理-地图的交互。
场景解码将代理放置在地图车道段上，并通过高斯混合模型与多个未来轨迹来预测代理属性和运动。
编码器/训练流水线通过将场景转换为结构化表示并端到端训练生成器，学习从仅场景的驾驶数据重建现实世界场景。
该架构支持对给定语言输入和地图进行多场景采样，从而实现随机性和可扩展性。

实验结果

研究问题

RQ1是否可以利用自然语言描述来可控地生成现实的交通场景？
RQ2在没有成对语言-交通数据的情况下，如何让基于 LLM 的解释器在语言与场景表示之间架起桥梁？
RQ3基于查询的 transformer 生成器是否能够有效建模多个主体与地图之间的交互，以生成连贯的轨迹？
RQ4LCTGen 是否可用于指令性交通场景编辑和可控策略评估？

主要发现

在无条件和语言条件的交通生成方面，LCTGen 相较于先前工作实现了更高的真实感和可控性。
相较于基线，基于语言条件显著提高了位置、航向和速度等属性的准确性。
在使用语言条件时，通过 mADE 和 mFDE 衡量的运动质量显著优于基线。
无条件版本（w/o z）在许多指标上仍优于强基线（TrafficGen），验证了端到端 transformer 设计。
人体研究表明，LCTGen 在与文本描述的一致性方面优于基线，适用于事故报告和属性描述。
该模型支持指令性编辑，可用于可控策略评估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。