QUICK REVIEW

[论文解读] From Prediction to Application: Language Model-based Code Knowledge Tracing with Domain Adaptive Pre-Training and Automatic Feedback System with Pedagogical Prompting for Comprehensive Programming Education

Unggi Lee, Jiyeong Bae|arXiv (Cornell University)|Jan 1, 2024

Intelligent Tutoring Systems and Adaptive Learning被引用 1

一句话总结

本文提出 CodeLKT，一种基于语言模型的代码知识追踪方法，通过领域自适应和任务自适应预训练提升编程教育中的预测准确性。该方法将大型语言模型与 CodeLKT 结合，利用结构化提示生成个性化、基于教学理论的反馈。系统显著优于现有模型，并实现可操作的、上下文感知的反馈，弥合了预测与实际应用之间的差距。

ABSTRACT

Knowledge Tracing (KT) is a critical component in online learning, but traditional approaches face limitations in interpretability and cross-domain adaptability. This paper introduces Language Model-based Code Knowledge Tracing (CodeLKT), an innovative application of Language model-based Knowledge Tracing (LKT) to programming education. CodeLKT leverages pre-trained language models to process learning data, demonstrating superior performance over existing KT and Code KT models. We explore Domain Adaptive Pre-Training (DAPT) and Task Adaptive Pre-Training (TAPT), showing enhanced performance in the coding domain and investigating cross-domain transfer between mathematics and coding. Additionally, we present an theoretically-informed integrated system combining CodeLKT with large language models to generate personalized, in-depth feedback to support students' programming learning. This work advances the field of Code Knowledge Tracing by expanding the knowledge base with language model-based approach and offering practical implications for programming education through data-informed feedback.

研究动机与目标

解决传统知识追踪（KT）模型在捕捉语义细微差别以及在编程教育中实现跨领域迁移方面的局限性。
通过利用具有领域和任务特定适应能力的预训练语言模型，提升代码知识追踪（CodeKT）中的预测准确性。
通过将自动化、基于教学理论的反馈生成整合到统一系统中，弥合预测建模与实际应用之间的差距。
探究利用语言模型实现数学与编程之间的跨领域知识迁移。
开发一种基于教育理论的反馈系统，根据学生的学习历史和表现，提供上下文感知、个性化的指导。

提出的方法

CodeLKT 采用基于语言模型的架构，将学生的编程序列作为自然语言处理，以捕捉代码和响应中的语义与句法模式。
领域自适应预训练（DAPT）在编程特定语料上微调基础语言模型，以提升在编程领域的表现。
任务自适应预训练（TAPT）进一步在 CodeKT 特定数据上微调模型，以增强任务特定的知识追踪能力。
基于提示的反馈系统使用基于教学理论的提示模板，结合结构化组件（如正面反馈、提示、相关历史问题）生成上下文感知、学生特定的反馈。
反馈系统将 CodeLKT 的预测输出（如正确性概率）与大语言模型结合，生成多组件反馈，包括正确性修正、改进建议和后续挑战。
系统采用两阶段提示框架：一个用于提交答案时的正确性反馈，另一个用于答案错误时的提示反馈，两者均基于编程教育理论。

实验结果

研究问题

RQ1CodeLKT 在编程学习任务上的预测准确性相较于现有 KT 和 CodeKT 模型表现如何？
RQ2领域自适应预训练（DAPT）在多大程度上提升了模型在编程领域的性能？
RQ3能否通过语言模型有效实现从数学到编程的知识迁移？其对性能有何影响？
RQ4任务自适应预训练（TAPT）在提升 CodeKT 特定性能方面效果如何？
RQ5基于大语言模型的反馈系统能否生成具有教学合理性、个性化的反馈，从而在预测之外真正支持学生学习？

主要发现

CodeLKT 在预测准确性方面显著优于现有 KT 和 CodeKT 模型，在编程教育基准测试中表现出卓越性能。
领域自适应预训练（DAPT）在编程特定任务上带来了可测量的性能提升，证实了领域特定微调的价值。
任务自适应预训练（TAPT）进一步提升了模型在 CodeKT 任务上的表现，表明任务特定适应对知识追踪有效。
利用语言模型实现从数学到编程的跨领域迁移是可行的，提示了在 STEM 领域构建共享基础模型的潜力。
集成反馈系统生成了高质量、个性化的反馈，包含正确性修正、改进建议和后续挑战，定性证据表明其具有教学合理性与上下文相关性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。