QUICK REVIEW

[論文レビュー] Exploring the Efficacy of ChatGPT in Analyzing Student Teamwork Feedback with an Existing Taxonomy

Andrew Katz, Siqing Wei|arXiv (Cornell University)|May 9, 2023

Artificial Intelligence in Healthcare and Education被引用数 15

ひとこと要約

本論文は、ChatGPT の能力を既存の分類法に従って学生のチームワークに関するコメントをラベル付けする能力と、ラベル付け精度を自己評価する能力を評価し、人間のラベルとの高い一致を発見した。

ABSTRACT

Teamwork is a critical component of many academic and professional settings. In those contexts, feedback between team members is an important element to facilitate successful and sustainable teamwork. However, in the classroom, as the number of teams and team members and frequency of evaluation increase, the volume of comments can become overwhelming for an instructor to read and track, making it difficult to identify patterns and areas for student improvement. To address this challenge, we explored the use of generative AI models, specifically ChatGPT, to analyze student comments in team based learning contexts. Our study aimed to evaluate ChatGPT's ability to accurately identify topics in student comments based on an existing framework consisting of positive and negative comments. Our results suggest that ChatGPT can achieve over 90\% accuracy in labeling student comments, providing a potentially valuable tool for analyzing feedback in team projects. This study contributes to the growing body of research on the use of AI models in educational contexts and highlights the potential of ChatGPT for facilitating analysis of student comments.

研究の動機と目的

教育におけるチームワークフィードバック分析の活用を動機づけ、大規模クラスでのフィードバックレビューの拡張性を示す。
既存の分類法から定義済みのトピックに学生のコメントを分類する ChatGPT の能力を評価する。
人間評価者に対する ChatGPT の自己評価精度を評価し、ラベリングの信頼性を測る。
教育フィードバックの定性的分析における生成系 AI の実践的な含意と限界を探る。

提案手法

学部課程の 200 件の学生コメントのアーカイブ済みで特定情報を除去したデータをテストデータとして使用する。
提供された分類法からトピックを特定するために、ChatGPT-3.5-turbo に対してゼロショットプロンプトを適用する（肯定的・否定的コメント）。
元のコメントIDとラベル付けされたトピックを含む表形式で、コメントごとにトピックを返すよう ChatGPT にプロンプトする。
正確、不明確、不正確の3段階スケールで人間の研究者がChatGPT のラベルを評価することでラベリングの精度を評価する。
人間の判断に対して自身のラベリング精度を1–10の序数スケールで評価させることで、精度チェックを行うようモデルに促す。

実験結果

リサーチクエスチョン

RQ1RQ1: 指示調整済みの GPT-3.5 モデルは、学生のフィードバックを分類して分類法ベースのカテゴリにマッチさせる際に、人間のラベルとどの程度一致するか？
RQ2RQ2: モデルの自己評価ラベル精度が、序数スケールでの人間の評価とどの程度一致するか？

主な発見

ChatGPT は、分析対象の200件のコメントについて、人間の評価者による完全に正確なラベリングは約85%であった。
モデルはコメント全体で282のラベルを生成し、いくつかのコメントが複数のラベルを受け取ったことを示している。
最も一般的な誤ラベルは Attended group meetings で、時折のラベル付けエラーと最初のオプションへのデフォルトの可能性を反映している。
全体として、モデルは肯定的・建設的なフィードバックの両方を捉え、正確な語句以上の意味を識別する能力を示した。
この研究は、事前学習済みの生成モデルが微調整なしでオープンエンドのフィードバックを質的に分析し、人間のラベルとの高い一致を示せる可能性を示唆する一方で、感情やラベル選択の問題は依然として残る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。