Skip to main content
QUICK REVIEW

[논문 리뷰] CrowdGrader: Crowdsourcing the Evaluation of Homework Assignments

Luca de Alfaro, Michael Shavlovsky|arXiv (Cornell University)|2013. 08. 24.
Parental Involvement in Education참고 문헌 30인용 수 21
한 줄 요약

CrowdGrader는 학생들이 신뢰도 기반 알고리즘을 사용하여 공동으로 과제를 평가할 수 있도록 해주는 커뮤니티 기반 평가 플랫폼이다. 이 플랫폼은 학생 간 평가를 통해 정확도에 연동된 인센티브를 제공함으로써 TA 수준의 평가 품질을 달성하면서도, 다양한 해결책에 노출됨으로써 더 풍부한 피드백과 교육적 이점을 제공한다.

ABSTRACT

Crowdsourcing offers a practical method for ranking and scoring large amounts of items. To investigate the algorithms and incentives that can be used in crowdsourcing quality evaluations, we built CrowdGrader, a tool that lets students submit and collaboratively grade solutions to homework assignments. We present the algorithms and techniques used in CrowdGrader, and we describe our results and experience in using the tool for several computer-science assignments. CrowdGrader combines the student-provided grades into a consensus grade for each submission using a novel crowdsourcing algorithm that relies on a reputation system. The algorithm iterativerly refines inter-dependent estimates of the consensus grades, and of the grading accuracy of each student. On synthetic data, the algorithm performs better than alternatives not based on reputation. On our preliminary experimental data, the performance seems dependent on the nature of review errors, with errors that can be ascribed to the reviewer being more tractable than those arising from random external events. To provide an incentive for reviewers, the grade each student receives in an assignment is a combination of the consensus grade received by their submissions, and of a reviewing grade capturing their reviewing effort and accuracy. This incentive worked well in practice.

연구 동기 및 목표

  • 학생 과제 평가를 위한 커뮤니티 기반 알고리즘과 인센티브를 조사하는 것.
  • 학점 평가에서 순위만을 사용하는 것보다 숫자 평가와 순위를 함께 사용하는 것이 더 효과적인가를 판단하는 것.
  • 평가자 신뢰도를 가중치로 고려하여 평균 평가 정확도를 향상시키는 신뢰도 기반 공감 알고리즘을 개발하는 것.
  • 높은 품질의 학생 간 평가를 유도하고 학생 참여도를 향상시키는 인센티브를 설계하는 것.
  • 실제 수업 환경에서 학생 간 평가의 교육적 및 실용적 이점을 평가하는 것.

제안 방법

  • 시스템은 기대값 최대화 원리를 사용하여 공감 평가와 개인 평가자 신뢰도를 동시에 추정하는 새로운 반복 알고리즘인 vancouver를 사용한다.
  • 평가 정확도는 공감 평가와의 일치 정도에 따라 갱신되는 신뢰도 점수로 모델링된다.
  • 최종 평가는 공감 평가와 학생 자신의 평가 성과를 가중합산하여 계산된다.
  • 척도 불변성이 없는 지표를 사용하여 리뷰 보상 점수를 할당한다: $ \hat{r}_{j} = 1 - \sqrt{\frac{\min{\tilde{v}_{j},v_{G}}}{v_{G}}} $, 여기서 $ v_G $는 기준 오차 수준이다.
  • 강사들은 커뮤니티 평가 기반으로 최종 평가를 보간할 수 있으며, 반복적으로 성과에 따라 수동으로 곡선 조정이 가능하다.
  • 학생들은 숫자 평가를 할 뿐 아니라 제출물을 순위 매기는 작업을 수행하여 평가 정밀도를 향상시켜야 한다.

실험 결과

연구 질문

  • RQ1학점 평가에서 순위만을 사용하는 것보다 숫자 평가와 순위를 함께 사용하는 것이 학생 간 평가에서 더 효과적인가?
  • RQ2신뢰도 기반 알고리즘이 단순 평균 또는 중앙값 기반 방법보다 공감 평가에서 더 우수한 성능을 보일 수 있는가?
  • RQ3체계적인 오류와 무작위 오류의 유형이 신뢰도 기반 알고리즘의 성능에 어떤 영향을 미치는가?
  • RQ4평가 정확도에 기반한 인센티브 메커니즘이 학생 간 평가의 품질과 공정성 향상에 기여할 수 있는가?
  • RQ5피드백이 포함된 학생 간 평가가 전통적인 TA 평가보다 더 나은 교육적 성과를 이끌어낼 수 있는가?

주요 결과

  • 합성 데이터에서 vancouver 알고리즘은 평균 및 중앙값 기반 방법보다 뛰어난 성능을 보였으며, 특히 평가 오류가 체계적인 경우에 두드러졌다.
  • 실제 적용에서는 코딩 과제에서 vancouver는 TA 평가와 유사한 수준의 정확도를 보였으며, 여러 평가자가 참여함으로써 더 포괄적인 피드백을 제공하는 장점이 있었다.
  • 평가 오류가 무작위적일 경우(예: 환경 불일치로 인한 오류), vancouver는 단순 평균보다 略로 낮은 성능을 보였다.
  • 학생들은 평가 과정 자체보다 피드백과 다양한 해결책에 노출되는 것에 더 가치를 두었으며, 많은 학생들이 동료의 작업을 검토함으로써 학습의 이점을 경험했다.
  • 최종 평가 점수를 제출 품질과 리뷰 정확도에 연동한 인센티브 메커니즘은 학생들이 학생 간 평가에 의미 있게 참여하도록 유도하는 데 성공했다.
  • 강사는 커뮤니티 평가 기반으로 최종 평가를 보간할 수 있었으며, 공정성을 유지하면서도 수동으로 등급 곡선 조정이 가능했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.