QUICK REVIEW

[論文レビュー] CrowdGrader: Crowdsourcing the Evaluation of Homework Assignments

Luca de Alfaro, Michael Shavlovsky|arXiv (Cornell University)|Aug 24, 2013

Parental Involvement in Education参考文献 30被引用数 21

ひとこと要約

CrowdGrader は、学生が評価の信頼性に基づくアルゴリズムを用いて共同で宿題を採点できるクラウドソーシングプラットフォームです。このシステムは、採点の正確性に連動したインcentive（インcentive）を組み合わせたペアレッジ評価を実現し、TA（TA）と同等の採点品質を達成すると同時に、多様な解答に触れることでフィードバックの質が向上し、教育的効果も得られます。

ABSTRACT

Crowdsourcing offers a practical method for ranking and scoring large amounts of items. To investigate the algorithms and incentives that can be used in crowdsourcing quality evaluations, we built CrowdGrader, a tool that lets students submit and collaboratively grade solutions to homework assignments. We present the algorithms and techniques used in CrowdGrader, and we describe our results and experience in using the tool for several computer-science assignments. CrowdGrader combines the student-provided grades into a consensus grade for each submission using a novel crowdsourcing algorithm that relies on a reputation system. The algorithm iterativerly refines inter-dependent estimates of the consensus grades, and of the grading accuracy of each student. On synthetic data, the algorithm performs better than alternatives not based on reputation. On our preliminary experimental data, the performance seems dependent on the nature of review errors, with errors that can be ascribed to the reviewer being more tractable than those arising from random external events. To provide an incentive for reviewers, the grade each student receives in an assignment is a combination of the consensus grade received by their submissions, and of a reviewing grade capturing their reviewing effort and accuracy. This incentive worked well in practice.

研究の動機と目的

学生の宿題をクラウドソーシングで評価するためのアルゴリズムとインcentive（インcentive）を調査すること。
ペアレビューにおいて、順位付けのみではなく数値評価を加えることで、より効果的な評価が可能かどうかを検証すること。
評価者の信頼性を重み付けすることで、採点の正確性を向上させる信頼性ベースのコンSENSUS（コンセンサス）アルゴリズムを開発すること。
高品質なペアレビューを促進し、学生の関与度を向上させるインcentive（インcentive）を設計すること。
実際の教室環境におけるペアレビューの教育的および実用的利点を評価すること。

提案手法

本システムは、期待値最大化の原則に従い、コンセンサス評点と個々の採点者の信頼性を同時に推定する新規の反復的アルゴリズム「vancouver」を採用している。
採点の正確性は、コンセンサス評点との一致度に基づいて繰り返し更新される信頼性スコアとしてモデル化される。
最終的な成績は、コンセンサス評点と学生自身のレビュー成績の重み付き組み合わせとして計算される。
スケール不変性を考慮しない指標がレビューへの報酬割り当てに用いられる：$ \hat{r}_{j} = 1 - \sqrt{\frac{\min{\tilde{v}_{j},v_{G}}}{v_{G}}} $、ここで $ v_G $ は基準誤差レベルを表す。
教員は、クラウドによる採点から最終成績を補間可能であり、クラス全体の成績分布に合わせた手動でのカーブ調整が可能である。
学生は、数値評点の付与に加え、提出物の順位付けも行うことで、採点の正確性を向上させる必要がある。

実験結果

リサーチクエスチョン

RQ1ペアレビューにおいて、順位付けのみではなく数値評価を加えることで、より効果的な評価が可能かどうか？
RQ2信頼性ベースのアルゴリズムは、単純な平均値や中央値に基づく手法よりも優れた性能を示せるか？
RQ3系統的誤差（システム的誤差）とランダム誤差（ランダム誤差）の種類が、信頼性ベースのアルゴリズムの性能に与える影響は何か？
RQ4採点の正確性に基づくインcentive（インcentive）メカニズムは、ペアレビューの質と公平性を向上させられるか？
RQ5フィードバック付きのペアレビューは、従来のTAによる採点に比べ、より良い教育的成果をもたらすか？

主な発見

合成データ上では、vancouver アルゴリズムが平均値や中央値ベースの手法を上回り、特に系統的誤差が発生する状況で顕著な優位性を示した。
実世界の使用状況では、vancouver はコーディング課題においてTA採点と同等の品質を達成したが、複数のレビュアーによるフィードバックが豊富に得られる点で優位性を発揮した。
ランダム誤差（例：環境の不一致による誤差）が発生した場合、vancouver は単純な平均値法よりもわずかに成績が悪化した。
学生は、採点プロセス自体よりも、フィードバックと多様な解答へのアクセスを高く評価しており、多くの学生が同僚の提出物をレビューすることで学びを得たと報告した。
最終成績を提出物の品質とレビューの正確性の両方に連動させるインcentive（インcentive）メカニズムは、学生がペアレビューに意味のある関与を示すのを効果的に促進した。
教員は、クラウドによる採点に基づいて補間された最終成績を用いることができ、公平性を保ちつつ成績曲線の手動調整が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。