[論文レビュー] SEAD: Self-Evolving Agent for Multi-Turn Service Dialogue
SEAD は、ユーザーモデリングをプロフィールコントローラとユーザーロールプレイモデルにデカップリングし、適応カリキュラムを通じて大規模アノテーションデータなしでサービスエージェントを訓練するゼロアノテーションの自己進化フレームワークである。
Large Language Models have demonstrated remarkable capabilities in open-domain dialogues. However, current methods exhibit suboptimal performance in service dialogues, as they rely on noisy, low-quality human conversation data. This limitation arises from data scarcity and the difficulty of simulating authentic, goal-oriented user behaviors. To address these issues, we propose SEAD (Self-Evolving Agent for Service Dialogue), a framework that enables agents to learn effective strategies without large-scale human annotations. SEAD decouples user modeling into two components: a Profile Controller that generates diverse user states to manage training curriculum, and a User Role-play Model that focuses on realistic role-playing. This design ensures the environment provides adaptive training scenarios rather than acting as an unfair adversary. Experiments demonstrate that SEAD significantly outperforms Open-source Foundation Models and Closed-source Commercial Models, improving task completion rate by 17.6% and dialogue efficiency by 11.1%. Code is available at: https://github.com/Da1yuqin/SEAD.
研究の動機と目的
- データ不足と低品質のヒトデータがあるゴール指向のサービス対話を解決する。
- ユーザーモデリングを多様なプロフィール生成器と現実的なロールプレイモデルへデカップリングし、公平な対戦学習を実現する。
- Mistake Analysis を通じた適応的カリキュラムを作り、学習難易度を50%近くに維持する。
- SEAD が最小限のアノテーションと小型モデルでオープンソースおよび商用モデルを上回ることを示す。
提案手法
- 多様な初期ユーザー状態をサンプリングし対立訓練に参加させるプロフィール生成器を導入する。
- 成果を制御せずにユーザー応答を模擬するユーザーロールプレイモデルを導入する。
- エージェント状態推定が行動を導く連続的意思決定プロセスとしてマルチターン対話をモデル化する。
- 軌跡ベースの利得を用いてサービスエージェントを更新するGroup Relative Policy Optimization (GRPO) を採用する。
- 難易度を適応させ、将来のプロフィールサンプリングを閉ループで導く Mistake Analysis を実装する。
- 匿名化された実世界の行動パターンを活用して多様で信頼性のあるユーザープロファイルを構築する。
実験結果
リサーチクエスチョン
- RQ1SEAD は大規模なアノテーションデータなしでマルチターンのサービス対話で高いタスク完遂率を達成できるか。
- RQ2ユーザーモデリングをプロフィールコントローラとロールプレイモデルへ分解することは公平な対戦学習と効果的なカリキュラム設計を可能にするか。
- RQ3Mistake Analysis による適応的難易度はさまざまなユーザープロファイルに対するエージェント学習と性能を改善するか。
主な発見
| Method | Params | CR (%) | ATT ↓ | UPA | EI | TI | CI | Total Cost |
|---|---|---|---|---|---|---|---|---|
| Foundation Models Qwen2.5-14B-Instruct | 14B | 38.7 | 10.5 ±2.1 | 0.883 ±0.085 | 0.34 ±1.11 | 0.68 ±1.53 | 0.63 ±1.58 | 0.00 |
| Qwen2.5-32B-Instruct | 32B | 38.3 | 9.9 ±2.15 | 0.899 ±0.068 | -0.11 ±0.54 | 0.76 ±0.91 | 2.25 ±1.15 | 0.00 |
| Qwen2.5-72B-Instruct | 72B | 39.0 | 9.6 ±2.18 | 0.818 ±0.144 | 0.51 ±1.32 | 1.06 ±1.72 | 1.18 ±1.59 | 0.00 |
| Large Model APIs GPT-4o | – | 44.2 | 10.8 ±2.10 | 0.867 ±0.117 | 0.04 ±0.97 | 0.97 ±1.29 | 1.34 ±1.42 | 727.28 |
| DeepSeek-Chat 671B | 671B | 31.6 | 11.3 ±2.10 | 0.863 ±0.084 | -0.20 ±0.97 | 0.27 ±1.24 | 0.76 ±1.50 | 87.36 |
| Qwen3-235B | 235B | 32.3 | 10.4 ±2.50 | 0.765 ±0.170 | -0.24 ±0.83 | 0.80 ±1.14 | 1.54 ±1.50 | 69.36 |
| LongCat-Flash 560B | 560B | 42.2 | 10.0 ±2.31 | 0.925 ±0.079 | 0.28 ±1.15 | 1.33 ±1.57 | 1.56 ±1.46 | 23.08 |
| SEAD (Ours) 14B | 14B | 52.0 | 9.6 ±2.09 | 0.912 ±0.071 | 0.63 ±1.12 | 1.57 ±1.51 | 1.55 ±1.39 | 0.00 |
- SEAD は14Bモデルで52.0%の完遂率を達成し、GPT-4o (44.2%) を上回る。
- SEAD は平均ターン数をターゲットまで9.6ターンに低減。
- SEAD は競争力のある User Portrait Accuracy (0.912) と強い状態改善(EI 0.63, TI 1.57, CI 1.55)を示す。
- 3つの成分(プロフィールサンプリング、Mistake Analysis、URMのデカップリング)すべてが最適性能に不可欠であることを示すアブレーション結果。
- SEAD は大幅に小さなモデルサイズとアノテーション付き対話データなしで、より高いタスク効率と現実性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。