QUICK REVIEW

[论文解读] VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation

Hao Wang, Jiayou Qin|arXiv (Cornell University)|Mar 19, 2024

Anomaly Detection Techniques and Applications被引用 6

一句话总结

VisionGPT 将实时开放词汇对象检测与基于 LLM 的推理融合，用于检测异常并为安全视觉导航生成音频安全描述，实现对动态场景自适应的零-shot 异常检测。

ABSTRACT

This paper explores the potential of Large Language Models(LLMs) in zero-shot anomaly detection for safe visual navigation. With the assistance of the state-of-the-art real-time open-world object detection model Yolo-World and specialized prompts, the proposed framework can identify anomalies within camera-captured frames that include any possible obstacles, then generate concise, audio-delivered descriptions emphasizing abnormalities, assist in safe visual navigation in complex circumstances. Moreover, our proposed framework leverages the advantages of LLMs and the open-vocabulary object detection model to achieve the dynamic scenario switch, which allows users to transition smoothly from scene to scene, which addresses the limitation of traditional visual navigation. Furthermore, this paper explored the performance contribution of different prompt components, provided the vision for future improvement in visual accessibility, and paved the way for LLMs in video anomaly detection and vision-language understanding.

研究动机与目标

在不进行任务特定训练的情况下，通过在第一人称视频帧中检测异常来推动安全的视觉导航。
在实时中利用开放词汇对象检测识别各种对象和危险。
使用提示策略和大语言模型生成简明、便于音频呈现的危险描述。
实现动态场景切换和用户驱动的检测类别调整，以用于城市导航。
在移动/边缘硬件上评估延迟、检测准确性和可用性。

提出的方法

集成一个轻量级开放世界对象检测器（YOLO-World）用于实时帧分析，并可自定义检测类别。
使用检测类别管理器通过提示根据场景上下文动态切换对象类别。
应用异常处理模块将帧分割为左/右/前/地面区域，当地面对象或左/右区域出现较大目标时标记异常（>10%）。
通过大型语言模型处理多帧对象数据（用于低级任务的 GPT-3.5；用于高级视觉-语言推理的 GPT-4）以生成危险描述。
设计领域特定的提示，引导 LLM 输出适合语音导航和安全强调的文本。
在不同平台上评估延迟、准确性和经济性，包括移动神经引擎以及各种 Yolov8/YOLO-World 配置。

实验结果

研究问题

RQ1通过将实时开放词汇对象检测与LLM推理融合，是否能够有效实现零-shot 异常检测？
RQ2动态提示工程和场景适应型对象类别选择如何影响与安全相关的异常检测和用户体验？
RQ3在移动/边缘设备上端到端 VisionGPT 部署的延迟和吞吐量基准是多少？
RQ4基于LLM的异常标注在准确率、召回率和误报方面相比规则基线如何？
RQ5在视障导航中的安全关键警报中，LLM 敏感性设置的影响是什么？

主要发现

在正确构造提示时，利用 LLM 的帧级异常检测能达到较高的精确度。
在具备神经引擎的移动设备上，端到端延迟平均约 60 ms，实验中通过帧补偿将 FPS 从 16 提升到 73。
提示模块与基于区域的对象信息显著影响性能；低灵敏度提示在降低误报的同时保留真正的正例。
在精心设计的提示和较低的灵敏度设置下，基于LLM的检测器相比规则基线具有更高的精确度。
消融研究证实指令提示和区域信息在优先处理紧急情况中的重要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。