[論文レビュー] Motion-to-Response Content Generation via Multi-Agent AI System with Real-Time Safety Verification
要約: 脚本の四エージェント系は、音声ベースの感情を安全でリアルタイム、年齢適切な応答コンテンツへ変換する安全検証ループとオンデバイス展開を備えた仕組みを提案する。
This paper proposes a multi-agent artificial intelligence system that generates response-oriented media content in real time based on audio-derived emotional signals. Unlike conventional speech emotion recognition studies that focus primarily on classification accuracy, our approach emphasizes the transformation of inferred emotional states into safe, age-appropriate, and controllable response content through a structured pipeline of specialized AI agents. The proposed system comprises four cooperative agents: (1) an Emotion Recognition Agent with CNN-based acoustic feature extraction, (2) a Response Policy Decision Agent for mapping emotions to response modes, (3) a Content Parameter Generation Agent for producing media control parameters, and (4) a Safety Verification Agent enforcing age-appropriateness and stimulation constraints. We introduce an explicit safety verification loop that filters generated content before output, ensuring compliance with predefined rules. Experimental results on public datasets demonstrate that the system achieves 73.2% emotion recognition accuracy, 89.4% response mode consistency, and 100% safety compliance while maintaining sub-100ms inference latency suitable for on-device deployment. The modular architecture enables interpretability and extensibility, making it applicable to child-adjacent media, therapeutic applications, and emotionally responsive smart devices.
研究の動機と目的
- 感情認識とコンテンツ生成を、明示的なポリシーと安全層で橋渡しする。
- 解釈可能でモジュール化されたオンデバイスの感情→応答コンテンツ生成を実現する。
- ルールベースの安全性検証による年齢適合性と刺激抑制を確保する。
- リアルタイム性能とプライバシー保護・エッジ指向の展開を示す。
提案手法
- 4つの協調エージェントが入力を処理: 感情認識、応答ポリシー決定、コンテンツパラメータ生成、そして安全性検証。
- CNNベースの音響特徴抽出とソフトマックスベースの感情分類(e*をC感情カテゴリへ)。
- 感情と覚醒度から離散的な応答モードへポリシーを決定木でマッピング。
- 選択されたモードからマルチモーダルメディア制御(音声、視覚、テキスト)を予測するコンテンツパラメータ生成。
- ルールベースの制約を用いた明示的な安全性検証と、規則違反時の再生成ループ。

実験結果
リサーチクエスチョン
- RQ1音声からの感情を軽量なオンデバイス設定でどれくらい正確に認識できるか。
- RQ2認識された感情を安全で年齢適切な応答モードに信頼性高くマッピングできるか。
- RQ3生成されたコンテンツパラメータはリアルタイム検証で安全性制約を満たすか。
- RQ4異なるハードウェアでのエンドツーエンドの待機時間はどの程度で、オンデバイス展開に適しているか。
- RQ5安全性検証ループが出力品質と信頼性に与える影響は何か。
主な発見
- 感情認識の精度はデータセットによって異なり、4クラスでIEMOCAPが73.2%、4クラスでRAVDESSが78.5%、合成データで89.3%。
- 応答モードの精度は89.4%を達成し、マクロ指標全体で精度と再現率が約86–87%程度。
- 安全性検証は規則をすべてパスする100%の合格率を達成し、再生成が必要だったのは僅か1.6%。
- エンドツーエンドの推論待機時間はテスト済みハードウェアで100 ms未満を維持、エッジデバイスを含む。
- アブレーションにより、マルチエージェント構造はエンドツーエンド構成と比べて一貫性と安全性を向上。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。