[論文レビュー] VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation
VisionGPTはリアルタイムのオープンボキャブラリー物体検出とLLMベースの推論を統合し、異常を検出して安全な視覚ナビゲーションのための音声安全説明を生成します。動的なシーン適応を可能にし、ゼロショットの異常検出を実現します。
This paper explores the potential of Large Language Models(LLMs) in zero-shot anomaly detection for safe visual navigation. With the assistance of the state-of-the-art real-time open-world object detection model Yolo-World and specialized prompts, the proposed framework can identify anomalies within camera-captured frames that include any possible obstacles, then generate concise, audio-delivered descriptions emphasizing abnormalities, assist in safe visual navigation in complex circumstances. Moreover, our proposed framework leverages the advantages of LLMs and the open-vocabulary object detection model to achieve the dynamic scenario switch, which allows users to transition smoothly from scene to scene, which addresses the limitation of traditional visual navigation. Furthermore, this paper explored the performance contribution of different prompt components, provided the vision for future improvement in visual accessibility, and paved the way for LLMs in video anomaly detection and vision-language understanding.
研究の動機と目的
- タスク固有のトレーニングを必要とせず、第一人称ビデオフレーム内の異常を検出して安全な視覚ナビゲーションを促進する。
- オープンボキャブラリ物体検出を活用して、リアルタイムで広範な物体と危険を認識する。
- プロンプティング戦略とLLMsを用いて、要点を絞り、音声に適した危険説明を生成する。
- 都市部のナビゲーションのために、ダイナミックなシーン遷移と検出クラスのユーザー主導の調整を可能にする。
- モバイル/エッジ機器での待機遅延、検出精度、使いやすさを評価する。
提案手法
- カスタマイズ可能な検出クラスでリアルタイムフレーム解析を行う軽量なオープンワールド物体検出器(YOLO-World)を統合する。
- シーン文脈に基づいてプロンプト経由でオブジェクトクラスを動的に切り替える検出クラスマネージャを使用する。
- Groundオブジェクトまたは左/右の大きな検出が発生した場合にアノマリーハンドルモジュールがフレームをLeft/Right/Front/Groundに分割し、異常をマークする。
- 複数フレームの物体データをLLM(低レベルタスクにはGPT-3.5、高レベルの視覚言語推論にはGPT-4)を介して処理し、危険説明を生成する。
- 音声ナビゲーションと安全性の強調に適した出力をLLMに誘導するためのドメイン特化プロンプトを設計する。
- モバイル神経エンジンを含むプラットフォーム全体で待機遅延、精度、コストを評価する。
実験結果
リサーチクエスチョン
- RQ1リアルタイムのオープンボキャブラリ物体検出とLLM推論を組み合わせることで、ゼロショット異常検出を効果的に実現できるか。
- RQ2ダイナミックなプロンプト設計とシーン適応型のオブジェクトクラス選択が、安全性に関連する異常検出とユーザー体験にどのように影響するか?
- RQ3モバイル/エッジデバイスでのエンドツーエンドVisionGPT導入の待機遅延とスループットのベンチマークは何か?
- RQ4LLM駆動の異常ラベリングはルールベースのベースラインと比較して、精度、リコール、誤警報の点でどうか?
- RQ5視覚障害ナビゲーションにおける安全クリティカルな警告に対するLLM感度設定の影響は何か?
主な発見
- プロンプトが適切に構成されていると、LLMを用いたフレームレベルの異常検出は高精度を達成する。
- ニューラルエンジン搭載のモバイルデバイスでエンドツーエンドの待機遅延は平均約60 ms、フレーム補償により実験でFPSが16から73へ向上。
- プロンプトモジュールと領域ベースのオブジェクト情報は性能に大きく影響する。感度の低いプロンプトは偽警報を減らしつつ真陽性を維持。
- 慎重に設計されたプロンプトと低感度設定のLLMベース検出器は、ルールベースのベースラインより高精度を示す。
- アブレーション研究は、緊急事態を優先するための指示プロンプトと領域情報の重要性を確認する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。