Skip to main content
QUICK REVIEW

[논문 리뷰] KGCE: Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models

Zixian Liu, Sihao Liu|arXiv (Cornell University)|2026. 01. 04.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

KGCE는 지식 기반 증강된 이중 그래프 평가 프레임워크를 도입하여 윈도우와 안드로이드 작업 간의 프라이빗 도메인 소프트웨어를 포함한 교차 플랫폼 교육용 에이전트를 위한 세부적인 작업 완성도 및 실행 효율성 측정치를 가능하게 한다.

ABSTRACT

With the rapid adoption of multimodal large language models (MLMs) in autonomous agents, cross-platform task execution capabilities in educational settings have garnered significant attention. However, existing benchmark frameworks still exhibit notable deficiencies in supporting cross-platform tasks in educational contexts, especially when dealing with school-specific software (such as XiaoYa Intelligent Assistant, HuaShi XiaZi, etc.), where the efficiency of agents often significantly decreases due to a lack of understanding of the structural specifics of these private-domain software. Additionally, current evaluation methods heavily rely on coarse-grained metrics like goal orientation or trajectory matching, making it challenging to capture the detailed execution and efficiency of agents in complex tasks. To address these issues, we propose KGCE (Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models), a novel benchmarking platform that integrates knowledge base enhancement and a dual-graph evaluation framework. We first constructed a dataset comprising 104 education-related tasks, covering Windows, Android, and cross-platform collaborative tasks. KGCE introduces a dual-graph evaluation framework that decomposes tasks into multiple sub-goals and verifies their completion status, providing fine-grained evaluation metrics. To overcome the execution bottlenecks of existing agents in private-domain tasks, we developed an enhanced agent system incorporating a knowledge base specific to school-specific software. The code can be found at https://github.com/Kinginlife/KGCE.

연구 동기 및 목표

  • 교육용, 교차 플랫폼 작업 벤치마크 및 프라이빗 도메인 소프트웨어 지원의 부족 해결.
  • 학교 맞춤 앱에서 MLM 구동 에이전트 실행을 향상시키기 위한 지식 기반 도입.
  • 세밀한 작업 평가를 위한 이중 그래프 평가자(작업 완성도 그래프와 실행 효율성 그래프) 제안.
  • Windows, Android, 교차 플랫폼 협업에 걸친 104개의 교육 중심 작업 데이터셋 구축.

제안 방법

  • Windows, Android, 교차 플랫폼 협업을 포괄하는 104개 교육용 작업 데이터셋을 DAG 하위 작업 그래프로 구성하여 구축한다.
  • 소프트웨어 패키지, 페이지, UI 요소를 포함한 학교 맞춤 JSON 지식 기반을 구축하여 프롬프트를 동적으로 보강한다.
  • 관련성 있는 경우 프롬프트에 KB 데이터를 주입하기 위한 Knowledge Invocation Decision 도입.
  • 세밀한 평가를 위한 Task Completeness Graph(CR, CPA)와 Execution Efficiency Graph(BR, Precision, Recall, F1, OoR, RMS) 정의.
  • KB 여부를 포함/제외한 Qwen-VL-Max-Latest, GPT-4o, Gemini-2.0-Flash 등 MLM에서 평가하여 성능 향상을 측정한다.
Figure 1: The overall framework of KGCE. The system first generates tasks from educational datasets, then executes them through a pipeline of action prediction, execution, and evaluation. A dual-graph evaluator assesses task completeness and execution efficiency. Based on screenshot and OCR feedback
Figure 1: The overall framework of KGCE. The system first generates tasks from educational datasets, then executes them through a pipeline of action prediction, execution, and evaluation. A dual-graph evaluator assesses task completeness and execution efficiency. Based on screenshot and OCR feedback

실험 결과

연구 질문

  • RQ1RQ1: 이중 그래프 평가 프레임워크가 거친 지표를 넘어 의미 있는 세밀한 통찰을 제공하는가?
  • RQ2RQ2: 지식 기반 보강이 작업과 모델 전반에 걸친 에이전트 성능에 어떤 영향을 미치는가?
  • RQ3RQ3: KGCE 작업에서 지식 기반 지원 여부에 따라 서로 다른 멀티모달 언어 모델의 성능은 어떻게 다른가?
  • RQ4RQ4: 구축된 지식 기반으로부터 가장 큰 이점을 얻는 모델은 무엇인가?

주요 결과

MetricWithout KB (%)With KB (%)Improve (%)
CR60.0275.26+25.39
CPA7.2211.29+56.37
Precision24.6832.84+33.06
Recall63.8775.79+18.66
F1-score33.9644.96+32.39
BR52.0141.47-20.27
OoR13.427.54-43.81
RMS46.3331.27-32.51
  • 지식 기반 보강은 모든 핵심 지표를 모델 전반에서 유의하게 개선하며, 예를 들어 CR이 60.02%에서 75.26%로, CPA가 7.22%에서 11.29%로 증가한다.
  • KB와 함께 실행 효율이 향상되며, RMS가 46.33에서 31.27로, OoR이 13.42에서 7.54로 감소한다.
  • GPT-4o가 전체 성능에서 최고를 기록하며, KB를 사용할 때 CR 77.21%와 F1 47.71%에 도달한다.
  • Qwen-VL-Max-Latest가 CR에서 가장 큰 상대적 KB 주도 향상을 보이며(52.88%에서 76.53%로).
  • Gemini-2.0-Flash 역시 KB의 이점을 보지만(CR 61.80%에서 72.03%), 룰과 동적 추론 간의 잠재적 충돌로 OoR이 약간 악화된다.
Figure 2: The knowledge base module. Given a task description and package names, the system identifies relevant packages, retrieves their descriptions from the knowledge base, and constructs prompts for the LLM. The knowledge base is organized by packages, pages, and elements, with each element incl
Figure 2: The knowledge base module. Given a task description and package names, the system identifies relevant packages, retrieves their descriptions from the knowledge base, and constructs prompts for the LLM. The knowledge base is organized by packages, pages, and elements, with each element incl

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.