[論文レビュー] ObjectVisA-120: Object-based Visual Attention Prediction in Interactive Street-crossing Environments
ObjectVisA-120 VRデータセットを紹介。オブジェクトベースの視覚的注意、オブジェクトベースの類似度指標(oSIM)、および対話型横断環境の注意予測を強化するグラフ対応のモデルSUMGraphを提案。
The object-based nature of human visual attention is well-known in cognitive science, but has only played a minor role in computational visual attention models so far. This is mainly due to a lack of suitable datasets and evaluation metrics for object-based attention. To address these limitations, we present ObjectVisA-120 -- a novel 120-participant dataset of spatial street-crossing navigation in virtual reality specifically geared to object-based attention evaluations. The uniqueness of the presented dataset lies in the ethical and safety affiliated challenges that make collecting comparable data in real-world environments highly difficult. ObjectVisA-120 not only features accurate gaze data and a complete state-space representation of objects in the virtual environment, but it also offers variable scenario complexities and rich annotations, including panoptic segmentation, depth information, and vehicle keypoints. We further propose object-based similarity (oSIM) as a novel metric to evaluate the performance of object-based visual attention models, a previously unexplored performance characteristic. Our evaluations show that explicitly optimising for object-based attention not only improves oSIM performance but also leads to an improved model performance on common metrics. In addition, we present SUMGraph, a Mamba U-Net-based model, which explicitly encodes critical scene objects (vehicles) in a graph representation, leading to further performance improvements over several state-of-the-art visual attention prediction methods. The dataset, code and models will be publicly released.
研究の動機と目的
- 街頭横断のような安全-criticalタスクにおけるコア因子としてオブジェクトベースの視覚注意を動機づける。
- 正確なオブジェクトアノテーションを備えた120人参加のVRデータセットを提供し、オブジェクト焦点の注意評価を可能にする。
- オブジェクトレベルの注意を評価する新規オブジェクトベース類似度指標(oSIM)を提案する。
- オブジェクト意味論を活用して予測精度を向上させるグラフ拡張注意モデルSUMGraphを導入する。
提案手法
- 6.14Mフレーム、パンオプティックセグメンテーション、深度マップ、車両キーポイントを備えたObjectVisA-120データセットを提示。
- ピクセルではなくオブジェクトマスク上で動作するオブジェクトベース類似度(oSIM)指標を定義・計算。
- Graph VSS/C-VSSブロックとシーンコンテキストグラフを組み合わせるエンコーダー–デコーダーアーキテクチャとしてSUMGraphを導入。
- オブジェクトスケルトンとグローバル属性をグラフにエンコードし、グラフ畳み込みと平均プーリングを実施してオブジェクトレベルおよびシーンレベルの特徴を作成。
- KLD、CC、SIM、NSS、MSE、および新規オブSIM項を含む複合損失で訓練し、オブジェクトベースの注意を最適化。
- グラフコンポーネントとoSIM損失のアブレーションを含む最先端のサリエンシー手法と比較評価。
実験結果
リサーチクエスチョン
- RQ1街頭横断のような安全-criticalタスクのために、オブジェクトベースの注意を信頼性高く測定・最適化できるか。
- RQ2ObjectVisA-120は新しい指標とアノテーションを通じてオブジェクト中心の注意の正確な評価を可能にするか。
- RQ3SUMGraphはオブジェクト認知目的で訓練された場合、既存のサリエンシーモデルより優れているか。
- RQ4オブジェクトグラフとグローバル属性を組み込むことが注意予測性能に与える影響は何か。
主な発見
| Method | CC ↑ | KLD ↓ | AUC ↑ | SIM ↑ | NSS ↑ | oSIM ↑ |
|---|---|---|---|---|---|---|
| w/o finetuning SUM [22] | 0.2961 | 2.6820 | 0.9160 | 0.2003 | 3.0513 | 0.4304 |
| w/o finetuning ContextSalNet [51] | 0.0093 | 3.9165 | 0.6177 | 0.0406 | 0.0760 | 0.3484 |
| w/o finetuning TranSalNet [38] | 0.2340 | 2.9500 | 0.8812 | 0.1231 | 2.1626 | 0.3766 |
| w/ finetuning TempSAL [1] | 0.4342 | 1.8510 | 0.9606 | 0.3192 | 5.9976 | 0.5767 |
| w/ finetuning TranSalNet [38] | 0.4348 | 1.7059 | 0.9672 | 0.3414 | 6.4809 | 0.5961 |
| w/ finetuning ContextSalNet [51] w/ [22] loss | 0.4335 | 1.6941 | 0.9680 | 0.3462 | 6.6447 | 0.6042 |
| w/ finetuning SUM [22] | 0.4722 | 1.7062 | 0.9662 | 0.3470 | 6.2607 | 0.5909 |
| SUMGraph (Ours) | 0.4564 | 1.6747 | 0.9683 | 0.3568 | 6.4357 | 0.6086 |
- SUMGraphは指標全体で最先端と競合する性能を示し、多くの設定でKLD、AUC、SIM、NSS、およびoSIMスコアで最高を達成することが多い。
- 訓練にoSIM損失を追加すると、多くの評価指標で性能が向上する。
- Graph C-VSSブロックにグローバルオブジェクト属性を取り入れるとSUMGraphの性能が向上。
- オブジェクトベースの評価指標oSIMは、近づく車両など安全-criticalなオブジェクトの関連性をピクセルベース指標より捉えやすい。
- データセットとモデルは対話型環境におけるオブジェクト認識注意のモデリング改善を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。