QUICK REVIEW

[论文解读] Joint Attention in Driver-Pedestrian Interaction: from Theory to Practice

Amir Rasouli, John K. Tsotsos|arXiv (Cornell University)|Feb 7, 2018

Human-Automation Interaction and Safety参考文献 364被引用 29

一句话总结

本文提出了一种联合注意力框架，通过建模城市交通中的共享注意力与非语言交流，提升自动驾驶汽车与行人之间的交互。该框架结合传感器数据与行为建模，整合视觉感知、上下文推理与意图预测，提出一种面向实时行人过街预测与协同决策的任务驱动方法。

ABSTRACT

Today, one of the major challenges that autonomous vehicles are facing is the ability to drive in urban environments. Such a task requires communication between autonomous vehicles and other road users in order to resolve various traffic ambiguities. The interaction between road users is a form of negotiation in which the parties involved have to share their attention regarding a common objective or a goal (e.g. crossing an intersection), and coordinate their actions in order to accomplish it. In this literature review we aim to address the interaction problem between pedestrians and drivers (or vehicles) from joint attention point of view. More specifically, we will discuss the theoretical background behind joint attention, its application to traffic interaction and practical approaches to implementing joint attention for autonomous vehicles.

研究动机与目标

解决自动驾驶汽车与行人之间在城市环境中缺乏有效沟通机制的问题。
克服当前行人行为预测系统未能考虑共享注意力与上下文线索的局限性。
开发一个统一框架，使自动驾驶汽车能够通过联合注意力机制推断行人意图。
整合实时视觉感知、上下文推理与非语言线索分析（例如眼神接触、头部朝向），实现动态交通交互。
弥合理论联合注意力模型与自动驾驶系统实际应用之间的差距。

提出的方法

采用基于人类社会认知的联合注意力框架，建模驾驶员与行人之间的相互意识。
利用多模态传感器数据（例如摄像头、LiDAR）检测并跟踪行人、车辆及环境特征（如斑马线与信号灯）。
应用视觉注意力模型，根据任务相关性动态聚焦于感兴趣区域，而非仅依赖数据驱动方法。
将车辆速度、行人头部朝向、群体规模与道路几何结构等上下文因素整合到意图估计中。
结合姿态估计与活动识别，推断行人动作（例如过街、等待）并预测未来行为。
实现推理模块，将观察到的线索（例如眼神接触、手势）与意图关联，实现实时交通交互中的协同决策。

实验结果

研究问题

RQ1如何建模并应用联合注意力机制，以改善自动驾驶汽车与行人之间的交互？
RQ2哪些上下文与行为线索（例如眼神接触、头部朝向、车辆接近度）最能预测行人过街意图？
RQ3自动驾驶汽车如何在实时交通场景中有效解读非语言交流？
RQ4当前感知与意图预测系统在处理复杂动态城市环境时存在哪些局限性？
RQ5任务驱动的视觉注意力模型如何在实时驾驶应用中优于数据驱动模型？

主要发现

当前的行人检测与活动识别算法在弱光或恶劣天气等真实条件下表现欠佳，远未达到人类水平性能。
大多数现有意图估计系统缺乏与稳健视觉感知流程的集成，导致在复杂场景中预测不可靠。
非语言交流线索（如眼神接触、头部朝向）是行人过街行为的强预测因子，但在当前自动驾驶系统中仍被低估。
最先进算法通常在脚本化或非自然数据上进行训练，限制了其在真实交通场景中的泛化能力。
亟需一种统一的、上下文感知的系统，整合感知、推理与联合注意力建模，以实现可靠的行人交互。
现有系统在不同城市环境（如带信号灯与无信号灯的路口，狭窄与宽阔街道）之间缺乏泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。