Skip to main content
QUICK REVIEW

[论文解读] A Systematic Review on Prompt Engineering in Large Language Models for K-12 STEM Education

E Chen, Danyang Wang|arXiv (Cornell University)|Oct 14, 2024
Online Learning and Analytics被引用 6
一句话总结

该论文系统性回顾了 2021–2024 年在 K-12 STEM 教育中使用 LLM 的提示工程的实证研究,综合提示策略、模型、评估和局限性。

ABSTRACT

Large language models (LLMs) have the potential to enhance K-12 STEM education by improving both teaching and learning processes. While previous studies have shown promising results, there is still a lack of comprehensive understanding regarding how LLMs are effectively applied, specifically through prompt engineering-the process of designing prompts to generate desired outputs. To address this gap, our study investigates empirical research published between 2021 and 2024 that explores the use of LLMs combined with prompt engineering in K-12 STEM education. Following the PRISMA protocol, we screened 2,654 papers and selected 30 studies for analysis. Our review identifies the prompting strategies employed, the types of LLMs used, methods of evaluating effectiveness, and limitations in prior work. Results indicate that while simple and zero-shot prompting are commonly used, more advanced techniques like few-shot and chain-of-thought prompting have demonstrated positive outcomes for various educational tasks. GPT-series models are predominantly used, but smaller and fine-tuned models (e.g., Blender 7B) paired with effective prompt engineering outperform prompting larger models (e.g., GPT-3) in specific contexts. Evaluation methods vary significantly, with limited empirical validation in real-world settings.

研究动机与目标

  • 了解提示工程在 K-12 STEM 教育中的 LLM 应用。
  • 识别文献中常见的提示策略、LLM 类型和评估方法。
  • 评估高级提示(Few-shot、Chain-of-Thought)与简单提示的有效性。
  • 突出局限性和差距,特别是关于真实世界验证和模型性能方面。

提出的方法

  • 遵循 PRISMA 协议对 2021–2024 年的文献进行筛选。
  • 筛选了 2,654 篇论文并选出 30 项研究用于分析。
  • 在研究之间对提示策略、LLM 类型、评估方法和局限性进行了分类。
  • 比较模型规模和配置,包括 GPT 系列与较小的微调模型。
  • 综合不同提示技术的有效性及其在不同情境中的结果。
  • 在真实世界教育环境中的实证验证存在空白。

实验结果

研究问题

  • RQ1在 K-12 STEM 教育中,哪些提示策略被用于 LLM?
  • RQ2哪些 LLM 类型和配置在特定教育任务中能产生最佳结果?
  • RQ3这些方法是如何被评估的,存在哪些局限性?
  • RQ4在本领域中,先进的提示方法(Few-shot、Chain-of-Thought)是否优于简单提示?

主要发现

  • 简单提示和零-shot 提示在各项研究中较为常用。
  • Few-shot 和 Chain-of-Thought 提示在各种任务上显示出积极的结果。
  • GPT-series 模型占主导地位,但较小的微调模型(如 Blender 7B)在某些情境中可能胜过像 GPT-3 这样的较大模型。
  • 评估方法各异,经验性真实世界验证有限。
  • 该综述覆盖的研究发布日期为 2021 年至 2024 年。
  • 该领域分析的任务和情境存在变异性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。