Skip to main content
QUICK REVIEW

[论文解读] Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving

Ali Keysan, Andreas Look|arXiv (Cornell University)|Sep 11, 2023
Topic Modeling被引用 12
一句话总结

本文开创性地使用预训练语言编码器来处理基于文本的场景描述以预测自主驾驶轨迹,并表明文本与图像编码器提供互补、有益的表征,联合文本+图像编码在 nuScenes 上实现最佳性能。

ABSTRACT

In autonomous driving tasks, scene understanding is the first step towards predicting the future behavior of the surrounding traffic participants. Yet, how to represent a given scene and extract its features are still open research questions. In this study, we propose a novel text-based representation of traffic scenes and process it with a pre-trained language encoder. First, we show that text-based representations, combined with classical rasterized image representations, lead to descriptive scene embeddings. Second, we benchmark our predictions on the nuScenes dataset and show significant improvements compared to baselines. Third, we show in an ablation study that a joint encoder of text and rasterized images outperforms the individual encoders confirming that both representations have their complementary strengths.

研究动机与目标

  • 激励将基于文本的表示整合到自主驾驶轨迹预测中,以提升场景理解。
  • 提出一种基于文本的场景表示,捕捉目标代理状态、历史信息和车道信息。
  • 将基于文本的编码器与传统的基于图像的编码器在轨迹预测中的性能进行比较。
  • 研究文本+图像联合编码是否在预测准确性上优于单模态编码器。
  • 提供一个概念验证,证明语言模型在自动驾驶任务中可以提供有意义的场景表示。

提出的方法

  • 使用以 CoverNet 为骨干的编码-解码架构进行轨迹预测。
  • 实现三种输入模态:图像编码器(ResNet BEiT 变体)、文本编码器(DistilBERT),以及将文本和图像嵌入拼接在一起的联合编码器。
  • 用栅格化图像以及描述代理状态、历史和车道几何的文本提示来表示场景。
  • 将车道信息编码为离散多段线或三次贝塞尔曲线,以适应语言模型的上下文长度。
  • 在 nuScenes 训练集上微调预训练的编码器,联合模型中对编码器设为冻结,且固定解码器用于轨迹分类。
  • 使用标准 nuScenes 指标进行评估:minADE_k、minFDE_k 和 MissRate_k,k 取 {1,5,10}。

实验结果

研究问题

  • RQ1通过预训练语言编码器的基于文本的场景表示是否能在自动驾驶任务中提供可行的轨迹预测?
  • RQ2文本编码器和图像编码器是否提供可通过联合编码器利用的互补优势?
  • RQ3贝塞尔曲线车道编码与离散化车道表示在提示语言模型方面的比较如何?
  • RQ4在单模态和多模态设置中,冻结与微调编码器的影响是什么?
  • RQ5联合文本+图像编码器能否在 nuScenes 上优于单模态的对手?

主要发现

  • 单独的文本编码器在轨迹预测上可与图像编码器相竞争。
  • 贝塞尔曲线提示因上下文长度限制优于离散化提示,避免截断。
  • 联合图像+文本编码器实现最佳性能,优于单模态基线和 CoverNet 摘要中的基线。
  • 在该任务中,BEiT-B 作为图像骨干通常优于 ResNet 骨干。
  • 基于 DistilBERT 的文本编码器在错失率上表现强劲,而基于 BEiT 的图像编码器在平均值和最终位移指标上表现突出。
  • 融合模态的联合模型发挥文本和图像表征的互补优点。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。