[論文レビュー] KGCE: Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models
KGCEは、私用ドメインのソフトウェアを含むWindowsとAndroidのタスク間で、細粒度のタスク完了度と実行効率を評価するための、知識ベースを補助としたデュアルグラフ評価フレームワークを導入します。
With the rapid adoption of multimodal large language models (MLMs) in autonomous agents, cross-platform task execution capabilities in educational settings have garnered significant attention. However, existing benchmark frameworks still exhibit notable deficiencies in supporting cross-platform tasks in educational contexts, especially when dealing with school-specific software (such as XiaoYa Intelligent Assistant, HuaShi XiaZi, etc.), where the efficiency of agents often significantly decreases due to a lack of understanding of the structural specifics of these private-domain software. Additionally, current evaluation methods heavily rely on coarse-grained metrics like goal orientation or trajectory matching, making it challenging to capture the detailed execution and efficiency of agents in complex tasks. To address these issues, we propose KGCE (Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models), a novel benchmarking platform that integrates knowledge base enhancement and a dual-graph evaluation framework. We first constructed a dataset comprising 104 education-related tasks, covering Windows, Android, and cross-platform collaborative tasks. KGCE introduces a dual-graph evaluation framework that decomposes tasks into multiple sub-goals and verifies their completion status, providing fine-grained evaluation metrics. To overcome the execution bottlenecks of existing agents in private-domain tasks, we developed an enhanced agent system incorporating a knowledge base specific to school-specific software. The code can be found at https://github.com/Kinginlife/KGCE.
研究の動機と目的
- 教育的で跨プラットフォームなタスクベンチマークと私用ドメインソフトウェアのサポート欠如に対処する。
- 学校固有のアプリでの MLM 主導エージェント実行を強化する知識ベースを導入する。
- 細粒度のタスク評価のためのデュアルグラフ評価器(Task Completeness GraphとExecution Efficiency Graph)を提案する。
- Windows、Android、跨プラットフォーム協調にわたる教育に焦点を当てた104タスクのデータセットを作成する。)
提案手法
- Windows、Android、跨プラットフォーム協調を跨ぐ104タスクの教育データセットをDAGサブタスクグラフとして構築する。
- ソフトウェアパッケージ、ページ、UI要素を含む学校固有のJSON知識ベースを作成し、プロンプトを動的に補強する。
- Knowledge Invocation Decisionを導入し、関連時にKBデータをプロンプトへ注入する。
- Task Completeness Graph(CR, CPA)とExecution Efficiency Graph(BR, Precision, Recall, F1, OoR, RMS)を細粒度評価のために定義する。
- KBあり/なしで MLM(Qwen-VL-Max-Latest、GPT-4o、Gemini-2.0-Flash)を横断的に評価し、パフォーマンス向上を測定する。

実験結果
リサーチクエスチョン
- RQ1RQ1: デュアルグラフ評価フレームワークは粗い指標を超える意味のある細粒度の洞察を提供するか?
- RQ2RQ2: 知識ベースの拡張はタスクとモデル全体でエージェントの性能にどう影響するか?
- RQ3RQ3: KBサポート有無でKGCEタスクを異なるマルチモーダル言語モデルはどう性能を示すか?
- RQ4RQ4: 構築された知識ベースから最も恩恵を受けるモデルはどれか?
主な発見
| Metric | Without KB (%) | With KB (%) | Improve (%) |
|---|---|---|---|
| CR | 60.02 | 75.26 | +25.39 |
| CPA | 7.22 | 11.29 | +56.37 |
| Precision | 24.68 | 32.84 | +33.06 |
| Recall | 63.87 | 75.79 | +18.66 |
| F1-score | 33.96 | 44.96 | +32.39 |
| BR | 52.01 | 41.47 | -20.27 |
| OoR | 13.42 | 7.54 | -43.81 |
| RMS | 46.33 | 31.27 | -32.51 |
- 知識ベースの拡張は、すべての主要指標でモデルの性能を有意に向上させる。例:CRは60.02%から75.26%、CPAは7.22%から11.29%へ上昇。
- KBによる実行効率の向上:RMSが46.33から31.27へ、OoRが13.42から7.54へ改善。
- GPT-4oは総合的に最高の性能を達成し、KBを用いるとCRが77.21%、F1が47.71%に達した。
- Qwen-VL-Max-LatestはKB駆動のCR改善が最大で、52.88%から76.53%へ増加。
- Gemini-2.0-FlashもKBの恩恵を受けるが、ルールと動的推論間の潜在的対立によりOoRがやや悪化する可能性がある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。