[논문 리뷰] Can ChatGPT and Bard Generate Aligned Assessment Items? A Reliability Analysis against Human Performance
본 연구는 ChatGPT와 Bard가 작문 프롬프트의 복잡성을 평가할 때 인간 평가자와 얼마나 일치하는지 평가한다. 신뢰도 지표로 ICC를 사용하고 인간 골드 스탠다드에 비해 낮은 상호 신뢰성을 발견했다.
ChatGPT and Bard are AI chatbots based on Large Language Models (LLM) that are slated to promise different applications in diverse areas. In education, these AI technologies have been tested for applications in assessment and teaching. In assessment, AI has long been used in automated essay scoring and automated item generation. One psychometric property that these tools must have to assist or replace humans in assessment is high reliability in terms of agreement between AI scores and human raters. In this paper, we measure the reliability of OpenAI ChatGP and Google Bard LLMs tools against experienced and trained humans in perceiving and rating the complexity of writing prompts. Intraclass correlation (ICC) as a performance metric showed that the inter-reliability of both the OpenAI ChatGPT and the Google Bard were low against the gold standard of human ratings.
연구 동기 및 목표
- 교육에서 AI가 생성한 평가 항목의 품질 연구 동기를 부여한다.
- 경험 많은 인간 평가자에対한 AI 도구(ChatGPT 및 Bard)의 신뢰성을 조사한다.
- 작성 프롬프트의 복잡성을 인지하고 평가하는 데 있어 인간 성능과의 정렬 여부를 평가한다.
제안 방법
- 주요 신뢰도 지표로 Intraclass Correlation Coefficient (ICC)을 사용한다.
- 금표로 간주되는 인간 평가와 대조하여 OpenAI의 ChatGPT 및 Google Bard를 비교한다.
- 경험 많고 훈련된 인간 평가자를 참여시켜 프롬프트의 복잡성을 평가한다.
- AI 도구의 성능을 인간 합의와 비교하여 신뢰성을 판단한다.
실험 결과
연구 질문
- RQ1ChatGPT와 Bard가 프롬프트의 복잡성을 판단할 때 인간 평가와 높은 ICC를 달성하는가?
- RQ2ChatGPT와 Bard의 ICC 값이 인간 골드 스탠다드와 어떻게 비교되는가?
- RQ3AI가 생성한 평가가 이 작업에서 인간 평가자를 보조하거나 대체할 만큼 충분히 신뢰할 수 있는가?
주요 결과
- ICC 기반 신뢰도는 두 도구 모두 인간 평가에 비해 낮다.
- 연구는 인간 평가를 프롬프트 복잡성 평가의 골드 스탯드로 사용하는 것을 명시한다.
- 이 결과는 이 맥락에서 이들 LLM이 정렬된 평가 항목 생성을 위한 신뢰도가 제한적임을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.