[論文レビュー] A Systematic Review on Prompt Engineering in Large Language Models for K-12 STEM Education
本論文は、K-12のSTEM教育における大型言語モデル(LLMs)におけるプロンプト設計に関する2021年から2024年の実証研究を体系的にレビューし、プロンプト戦略・モデル・評価・制約を統合して整理している。
Large language models (LLMs) have the potential to enhance K-12 STEM education by improving both teaching and learning processes. While previous studies have shown promising results, there is still a lack of comprehensive understanding regarding how LLMs are effectively applied, specifically through prompt engineering-the process of designing prompts to generate desired outputs. To address this gap, our study investigates empirical research published between 2021 and 2024 that explores the use of LLMs combined with prompt engineering in K-12 STEM education. Following the PRISMA protocol, we screened 2,654 papers and selected 30 studies for analysis. Our review identifies the prompting strategies employed, the types of LLMs used, methods of evaluating effectiveness, and limitations in prior work. Results indicate that while simple and zero-shot prompting are commonly used, more advanced techniques like few-shot and chain-of-thought prompting have demonstrated positive outcomes for various educational tasks. GPT-series models are predominantly used, but smaller and fine-tuned models (e.g., Blender 7B) paired with effective prompt engineering outperform prompting larger models (e.g., GPT-3) in specific contexts. Evaluation methods vary significantly, with limited empirical validation in real-world settings.
研究の動機と目的
- K-12のSTEM教育において、プロンプト設計がLLMsにどのように適用されているかを理解する。
- 文献で用いられる一般的なプロンプト戦略、LLMの型、評価方法を特定する。
- Few-shot(少数例)および chain-of-thought(思考過程)を用いた高度な prompting の有効性と、単純 prompting の比較を評価する。
- 実世界での検証やモデル性能に関する制限とギャップを強調する。
提案手法
- PRISMAプロトコルに従い、2021–2024の文献をスクリーニングする。
- 2,654件の論文をスクリーニングし、分析対象として30件の研究を選定した。
- 研究間でプロンプト戦略、LLMタイプ、評価方法、制約を分類した。
- GPT-seriesを含む大規模モデルと、より小さなファインチューニング済みモデルを比較した。
- さまざまなプロンプト技法の有効性と適用文脈に関する知見を総合した。
- 実世界の教育現場での実証検証のギャップを特定した。
実験結果
リサーチクエスチョン
- RQ1K-12のSTEM教育において、LLMsで用いられるプロンプト戦略は何か?
- RQ2特定の教育タスクに対して、どのLLMタイプと設定が最良の結果をもたらすか?
- RQ3これらのアプローチはどのように評価され、どのような制限が存在するか?
- RQ4この分野で、高度な prompting(few-shot、chain-of-thought)は単純 prompting を上回るか?
主な発見
- 単純 prompting およびゼロショット prompting は、研究全体で一般的に用いられている。
- Few-shot および chain-of-thought prompting は、さまざまなタスクで良好な結果を示している。
- GPT-series モデルが支配的だが、より小さなファインチューニング済みモデル(例:Blender 7B)は、特定の文脈で GPT-3 のような大規模モデルを上回ることがある。
- 評価方法は異なり、実証的な実世界での検証は限られている。
- レビューは2021年から2024年の間に発表された研究を対象としている。
- 分析されたタスクと文脈には多様性が見られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。