[논문 리뷰] Collaborative and AI-aided Exam Question Generation using Wikidata in Education
이 논문은 물리 시험 문제의 공동 생성, 확장성, 자동화를 가능하게 하며, 자동 정답 보정 및 설명 기능을 제공하는 다국어, 인공지능 기반 프레임워크인 PhysWikiQuiz를 제시한다. Wikidata에서 수식과 변수를 검색하고, 수학적 실체 연결을 적용하며, 컴퓨터 대수 시스템(CAS)을 사용해 검증함으로써, 한 수식 개념당 최대 300개의 고유한 질문을 생성하며, 종단 간 질문 생성 및 보정에서 50%의 성공률과 27%의 설명 텍스트 정확도를 달성한다.
Since the COVID-19 outbreak, the use of digital learning or education platforms has significantly increased. Teachers now digitally distribute homework and provide exercise questions. In both cases, teachers need to continuously develop novel and individual questions. This process can be very time-consuming and should be facilitated and accelerated both through exchange with other teachers and by using Artificial Intelligence (AI) capabilities. To address this need, we propose a multilingual Wikimedia framework that allows for collaborative worldwide teacher knowledge engineering and subsequent AI-aided question generation, test, and correction. As a proof of concept, we present >>PhysWikiQuiz<<, a physics question generation and test engine. Our system (hosted by Wikimedia at https://physwikiquiz.wmflabs.org) retrieves physics knowledge from the open community-curated database Wikidata. It can generate questions in different variations and verify answer values and units using a Computer Algebra System (CAS). We evaluate the performance on a public benchmark dataset at each stage of the system workflow. For an average formula with three variables, the system can generate and correct up to 300 questions for individual students based on a single formula concept name as input by the teacher.
연구 동기 및 목표
- 디지털 교육 환경에서 다양한 학생들을 대상으로 개별 맞춤형 시험 문제를 수작업으로 만드는 데 소요되는 시간 문제를 해결하기 위해.
- 교사 간 공동 작업이 가능한 다국어 지식 공학을 가능하게 하며, 공개된 의미론적 지식 기반으로 Wikidata를 사용하기 위해.
- Wikidata의 수식 개념을 활용해 대규모로 자동으로 질문을 생성하고, 보정 및 설명을 수행하는 인공지능 기반 시스템을 개발하기 위해.
- 기존 단일 유지 관리자 문제은행이 개념 가용성에 한계를 가진다는 점을 감안해, 확장성과 커버리지 측면에서 향상된 성능을 달성하기 위해.
제안 방법
- 수식 개념 이름을 입력으로 사용해 Wikidata에서 물리 수식, 변수, 단위를 검색한다.
- 다양한 표기법과 기호 간 동치 수식 표현을 식별하기 위해 수학적 실체 연결을 적용한다.
- 컴퓨터 대수 시스템(CAS)을 사용해 수식을 재정렬하고, 각 변수를 구하기 위한 해를 구하며, 식별자를 위한 임의의 값을 생성한다.
- 학생이 보기 위한 질문을 변수 이름, 기호, 단위, 계산 경로와 함께 생성한다.
- 학생의 정답을 CAS가 계산한 결과와 수치 값 및 단위를 비교하여 검증한다.
- 외부 교육 플랫폼에 통합하기 위한 API를 제공하며, 다국어 출력을 지원한다.
실험 결과
연구 질문
- RQ1인공지능 기반 질문 생성을 위한 최신 기술 시스템은 무엇이며, 그들의 한계는 어떻게 보완할 수 있는가?
- RQ2Wikidata에서 질문 생성을 위한 가장 효과적인 정보 검색 방법과 데이터베이스는 무엇인가?
- RQ3이 프레임워크를 사용해 종단 간 질문 생성, 보정, 설명 기능을 달성할 수 있는 성능은 어느 정도인가?
- RQ4각 시스템 모듈이 전체 성능에 기여하는 바는 무엇인가?
- RQ5구현 과정에서 발생하는 과제는 무엇이며, 이를 어떻게 완화할 수 있는가?
주요 결과
- 시스템은 한 수식 개념당 최대 300개의 고유한 질문을 성공적으로 생성하고 보정하여 높은 확장성을 입증했다.
- PhysWikiQuiz는 벤치마크 물리 개념의 99%를 커버(469/475)하며, 'physQuiz'(2%) 및 'Mr Watts Physics'(8%)와 비교해 훨씬 뛰어난 성능을 보였다.
- 수식의 구조 문제, 식별자 가용성 문제, 또는 Wikidata 데이터 품질 문제로 인해 수식 항목의 50%만 종단 간 완전한 질문 생성이 가능하다.
- 설명 텍스트 생성은 27%의 경우에서 성공했으며, 이 중 39%는 기호, 값, 단위 대체 후 의미적으로 올바른 결과를 도출했다.
- 주요 성능 저하 요인은 외부 종속성으로, 특히 CAS(Sympy)와 번역기(LaCASt)이며, Wikidata 항목의 품질 불일치도 영향을 미친다.
- 사용자 피드백 및 Wikidata의 개선된 데이터 품질 가이드라인 도입으로 인해 시스템 성능과 커버리지가 크게 향상될 것으로 기대된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.