[論文レビュー] Perceive What Matters: Relevance-Driven Scheduling for Multimodal Streaming Perception
この論文は、情報理論的報酬に基づく複数モダリティ知覚モジュール(例:オブジェクト検出、全身ポーズ推定)を起動する知覚スケジューリングフレームワークを導入し、ストリーミングHRC設定における待機時間を低減しつつ知覚品質を維持する。
In modern human-robot collaboration (HRC) applications, multiple perception modules jointly extract visual, auditory, and contextual cues to achieve comprehensive scene understanding, enabling the robot to provide appropriate assistance to human agents intelligently. While executing multiple perception modules on a frame-by-frame basis enhances perception quality in offline settings, it inevitably accumulates latency, leading to a substantial decline in system performance in streaming perception scenarios. Recent work in scene understanding, termed Relevance, has established a solid foundation for developing efficient methodologies in HRC. However, modern perception pipelines still face challenges related to information redundancy and suboptimal allocation of computational resources. Drawing inspiration from the Relevance concept and the information sparsity in HRC events, we propose a novel lightweight perception scheduling framework that efficiently leverages output from previous frames to estimate and schedule necessary perception modules in real-time based on scene context. The experimental results demonstrate that the proposed perception scheduling framework effectively reduces computational latency by up to 27.52% compared to conventional parallel perception pipelines, while also achieving a 72.73% improvement in MMPose activation recall. Additionally, the framework demonstrates high keyframe accuracy, achieving rates of up to 98%. The results validate the framework's capability to enhance real-time perception efficiency without significantly compromising accuracy. The framework shows potential as a scalable and systematic solution for multimodal streaming perception systems in HRC.
研究の動機と目的
- ストリーミング多模情報知覚における遅延を低減するためのフレームごとの動的モジュール起動の必要性を動機づける。
- 情報獲得と計算コストを比較衡量する報酬ベースのスケジューリングフレームワークを提案する。
- 過去フレームの出力とシーン文脈がリアルタイムの起動意思決定にどう影響するかを示す。
- 定量的指標を用いて複数ドメインと知覚モジュールでアプローチを検証する。
提案手法
- 各モジュールが情報獲得とコストのバランスを取るモジュール特有の報酬関数を持つ知覚ツールキットを定義する。
- 前景フレームデータを用いてシーンを背景、物体、人間領域にセグメントし、運動状態と関連性を推定する。
- 情報獲得推定(ΦR)からコスト(C)を引いた per-module 報酬を計算し、総報酬を最大化する起動集合を選択する。
- カルマンフィルタに基づく状態予測とエントロピー基準の情報獲得で物体検出と全身ポーズ推定の報酬をモデル化する。
- 三つの映像ドメインにおける遅延、起動リコール、キーフレーム正確さを用いてスケジューリングを評価する。
- 比較のための実世界に近いOracleベンチマークと並列ベースラインを提供する。

実験結果
リサーチクエスチョン
- RQ1関連性主導のスケジューリングは、知覚品質を損なうことなくマルチモーダルストリーミング知覚のエンドツーエンドの遅延を削減できるか。
- RQ2情報獲得とコストに基づくフレームごとのモジュール起動は、静的/動的シーンの異なるドメインダイナミクスでどう機能するか。
- RQ3リアルタイムスケジューリング制約下で、姿勢推定などの重いモジュールのリコールにどのような影響があるか。
- RQ4ストリーミング環境で起動が本当に必要なキーフレームを特定する精度(キーフレーム精度)はどれくらいか。
主な発見
| Domains | Metric | Parallel Perception | Oracle Scheduling | Perception Scheduled |
|---|---|---|---|---|
| Indoor Reading | Latency (ms) | 98.81 | 48.95 | 71.62 |
| Indoor Reading | Yolo Recall | 1.00 | 1.00 | 0.97 |
| Indoor Reading | Pose Recall | 0.16 | 0.24 | 0.20 |
| Eating | Latency (ms) | 94.99 | 70.00 | 86.44 |
| Eating | Yolo Recall | 1.00 | 1.00 | 0.98 |
| Eating | Pose Recall | 0.16 | 0.24 | 0.20 |
| Walking | Latency (ms) | 93.63 | 81.51 | 75.15 |
| Walking | Yolo Recall | 1.00 | 1.00 | 0.93 |
| Walking | Pose Recall | 0.22 | 0.52 | 0.38 |
- 従来の並列パイプラインと比較して最大27.52%の遅延削減を達成。
- 特定のドメインでMMPoseの起動リコールを最大72.73%改善。
- 評価されたドメイン全体で高いキーフレーム精度を維持(最大98%)。
- YOLOリコールはモジュール不確実性とスケジューリングダイナミクスによる小さな揺らぎとともに高いまま。
- フレームワークは室内、食事中、歩行のシナリオで頑健性を示し、追加モジュールへの拡張をサポート。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。