QUICK REVIEW

[논문 리뷰] VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation

Hao Wang, Jiayou Qin|arXiv (Cornell University)|2024. 03. 19.

Anomaly Detection Techniques and Applications인용 수 6

한 줄 요약

VisionGPT은 실시간 오픈-보캐뷸러리 객체 탐지와 LLM 기반 추론을 결합하여 이상을 탐지하고 안전한 시각적 내비게이션을 위한 오디오 안전 설명을 생성하며, 동적 장면 적응을 통해 제로샷 이상 탐지를 가능하게 한다.

ABSTRACT

This paper explores the potential of Large Language Models(LLMs) in zero-shot anomaly detection for safe visual navigation. With the assistance of the state-of-the-art real-time open-world object detection model Yolo-World and specialized prompts, the proposed framework can identify anomalies within camera-captured frames that include any possible obstacles, then generate concise, audio-delivered descriptions emphasizing abnormalities, assist in safe visual navigation in complex circumstances. Moreover, our proposed framework leverages the advantages of LLMs and the open-vocabulary object detection model to achieve the dynamic scenario switch, which allows users to transition smoothly from scene to scene, which addresses the limitation of traditional visual navigation. Furthermore, this paper explored the performance contribution of different prompt components, provided the vision for future improvement in visual accessibility, and paved the way for LLMs in video anomaly detection and vision-language understanding.

연구 동기 및 목표

1) 작업 특화 학습 없이 1인칭 영상 프레임에서 이상을 탐지해 안전한 시각적 내비게이션을 자극한다.
2) 실시간으로 넓은 범위의 객체와 위험 요소를 인식하도록 오픈-보캐뷸러리 객체 탐지를 활용한다.
3) 프롬프트 전략과 LLM을 사용해 간결하고 음성 친화적인 위험 설명을 생성한다.
4) 도시 내비게이션을 위한 동적 장면 전환과 탐지 클래스의 사용자 주도 조정을 가능하게 한다.
5) 모바일/엣지 하드웨어에서의 지연, 탐지 정확도, 사용성을 평가한다.

제안 방법

실시간 프레임 분석을 위한 경량의 오픈월드 객체 탐지기(YOLO-World)를 통합하고 탐지 클래스를 커스터마이즈 가능하게 한다.
프롬프트를 통해 장면 맥락에 따라 객체 클래스를 동적으로 전환하는 Detection Class Manager를 사용한다.
Left/Right/Front/Ground로 프레임을 구역화하고 Ground 객체나 큰 Left/Right 탐지가 10%를 넘을 때 이상을 표시하는 Anomaly Handle Module를 적용한다.
다중 프레임 객체 데이터를 LLM(GPT-3.5은 저수준 작업; GPT-4는 고수준 비전-언어 추론)을 통해 처리해 위험 설명을 생성한다.
음성 내비게이션과 안전 강조에 적합한 출력으로 LLM을 안내하기 위한 도메인 특화 프롬프트를 설계한다.
모바일 신경 엔진 및 다양한 Yolov8/YOLO-World 구성에서 지연, 정확도, 비용을 평가한다.

실험 결과

연구 질문

RQ1실시간 오픈-보캐뷸러리 객체 탐지와 LLM 추론의 융합으로 제로샷 이상 탐지가 효과적으로 달성될 수 있는가?
RQ2동적 프롬프트 설계와 장면 적응형 객체 클래스 선택이 안전과 사용자 경험에 어떤 영향을 미치는가?
RQ3모바일/엣지 기기에서 엔드투엔드 VisionGPT 배치의 지연 및 처리량 벤치마크는 어떤가?
RQ4LLM 주도 이상 라벨링이 규칙 기반 기준선에 비해 정밀도, 재현율, 오경보에 어떤 차이가 있는가?
RQ5안전-critical한 경고에서 LLM 민감도 설정이 시각 장애 내비게이션에 어떤 영향을 미치는가?

주요 결과

LLM과 함께하는 프레임 수준의 이상 탐지는 프롬프트가 적절히 구성되면 높은 정밀도를 달성한다.
모바일 기기에서 신경 엔진을 사용한 엔드투엔드 지연은 평균 약 60 ms이며 프레임 보정으로 실험에서 FPS가 16에서 73으로 증가했다.
프롬프트 모듈과 영역 기반 객체 정보가 성능에 큰 영향을 미치며, 낮은 민감도 프롬프트는 위양을 줄이면서 실제 양성은 보존한다.
LLM 기반 탐지기는 신중하게 설계된 프롬프트와 낮은 민감도 설정으로 규칙 기반 기준선에 비해 높은 정밀도를 보인다.
가지치기 연구에서 지시 프롬프트와 지역 정보의 중요성이 비상 상황의 우선순위 결정에 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.