[論文レビュー] DuCCAE: A Hybrid Engine for Immersive Conversation via Collaboration, Augmentation, and Evolution
DuCCAEはリアルタイム応答を非同期のエージェント的推論とデカップリングし、長期的タスクを含む没入型対話を実現する。これにより信頼性と生産規模での有効性が向上。
Immersive conversational systems in production face a persistent trade-off between responsiveness and long-horizon task capability. Real-time interaction is achievable for lightweight turns, but requests involving planning and tool invocation (e.g., search and media generation) produce heavy-tail execution latency that degrades turn-taking, persona consistency, and user trust. To address this challenge, we propose DuCCAE (Conversation while Collaboration with Augmentation and Evolution), a hybrid engine for immersive conversation deployed within Baidu Search, serving millions of users. DuCCAE decouples real-time response generation from asynchronous agentic execution and synchronizes them via a shared state that maintains session context and execution traces, enabling asynchronous results to be integrated back into the ongoing dialogue. The system orchestrates five subsystems-Info, Conversation, Collaboration, Augmentation, and Evolution-to support multi-agent collaboration and continuous improvement. We evaluate DuCCAE through a comprehensive framework that combines offline benchmarking on the Du-Interact dataset and large-scale production evaluation within Baidu Search. Experimental results demonstrate that DuCCAE outperforms strong baselines in agentic execution reliability and dialogue quality while reducing latency to fit strict real-time budgets. Crucially, deployment metrics since June 2025 confirm substantial real-world effectiveness, evidenced by a tripling of Day-7 user retention to 34.2% and a surge in the complex task completion rate to 65.2%. Our hybrid architecture successfully preserves conversational continuity while enabling reliable agentic execution, offering practical guidelines for deploying scalable agentic systems in industrial settings.
研究の動機と目的
- 没入型対話システムにおけるリアルタイム応答と長期的タスク能力の間の緊張を解消する。
- 高速なリアルタイム応答と非同期のエージェント推論を同期する待機時間デカップリングアーキテクチャを提案する。
- 自動化と人間の介入を組み合わせた評価を通じて、データ駆動の進化的パイプラインを開発し、システム性能を継続的に改善する。
- 生産性を示す大規模産業設定(Baidu Search)でシステムを展開・評価し、生産 viabilityとビジネス影響を示す。
提案手法
- Fast Track によるリアルタイム応答と Slow Track による非同期推論のデュアル・トラックデータフローを導入する。
- Unified Shared Stateを実装して、没入感を壊さず両トラックの出力を同期させる。
- 知覚、ルーティング、多エージェント計画、ツール使用、学習の5つのサブシステム(Info, Conversation, Collaboration, Augmentation, Evolution)を統括する。
- Retrieval-Augmented Generation (RAG)とModel Context Protocol (MCP)を用いて外部知識とツールで出力をグラウンド化する。
- 自動評価、SFT、RLを含むEvolution System with Data Flywheelを用いてエージェントを継続的に改善する。
実験結果
リサーチクエスチョン
- RQ1待機時間デカップリングされたデュアル・トラックアーキテクチャは、長期ツール使用の信頼性を維持しつつ対話の継続性を確保できるか。
- RQ2進化的でドメイン固有の訓練は、中規模モデルを大型の汎用モデルよりも複雑なタスク実行で超えることができるか。
- RQ3生産環境における非同期の計画・実行を促進するマルチエージェントCollaboration Systemの利点は何か。
- RQ4メモリ分離(User MemoryとAgent Memory)は、長期間にわたりペルソナの一貫性とユーザー信頼にどう影響するか。
- RQ5大規模展開における定着率や複雑タスク完遂といった生産レベルの指標は、このようなシステムで改善されるか。
主な発見
| Backbone Model | Setup | Task Execution | Dialogue Quality | Efficiency | Dispatch (P_disp) | Success Rate (SR) | Fidelity (%) | Persona (1-5) | Empathy (1-5) | Avg. Latency |
|---|---|---|---|---|---|---|---|---|---|---|
| Qwen2.5-3B-Instruct | Zero-shot | 52.4% | 28.5% | 45.2% | 2.5 | 2.4 | 1,250 ms | |||
| Llama-3.2-3B-Instruct | Zero-shot | 51.8% | 26.2% | 44.1% | 2.4 | 2.3 | 1,280 ms | |||
| Qwen2.5-7B-Instruct | Zero-shot | 61.5% | 37.2% | 54.8% | 2.8 | 2.8 | 1,480 ms | |||
| Llama-3.2-11B-Instruct | Zero-shot | 58.2% | 35.8% | 53.5% | 2.7 | 2.7 | 1,520 ms | |||
| Qwen2.5-32B-Instruct | Zero-shot | 72.1% | 55.4% | 62.2% | 3.2 | 3.2 | 3,250 ms | |||
| Llama-3.3-70B-Instruct | Zero-shot | 75.5% | 61.1% | 64.4% | 3.4 | 3.3 | 5,800 ms | |||
| DuCCAE -V1 | Cold Start | 68.8% | 50.5% | 58.4% | 3.5 | 3.5 | 1,850 ms | |||
| DuCCAE -V2 | Evolution I | 76.2% | 63.8% | 66.5% | 3.9 | 4.0 | 1,920 ms | |||
| DuCCAE -V3 | Evolution II | 82.5% | 72.4% | 71.1% | 4.1 | 4.3 | 1,880 ms |
- Fast Trackでのサブセカンドの応答を達成しつつ、Slow Trackで非同期の協調を可能にする。
- 生産環境でDay-7のユーザー定着率が34.2%に三倍、Complex Task Completion Rateは65.2%に上昇。
- DuCCAE-V3はdispatch精度82.5%、成功率72.4%、忠実度71.1%、平均待機時間1,880 msを達成。
- SFTとRLを含むEvolutionary data(Du-Interact-Evo)は、SRにおいて大規模なベースモデル(例:70B)を超える性能を著しく改善。
- 視覚認識のアブレーションは、キャプションベースの視覚→テキストアプローチを用いると待機時間を77%短縮(480 ms対2100 ms)。
- システムはより長い会話を維持(平均セッションターン4.2から12.5へ)し、没入感を損なうことなくタスク成否を高める。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。