Skip to main content
QUICK REVIEW

[논문 리뷰] MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties Grounded in Math Reasoning Problems

Jakub Mačina, Nico Daheim|arXiv (Cornell University)|2023. 05. 23.
Intelligent Tutoring Systems and Adaptive Learning인용 수 3
한 줄 요약

이 논문은 인간 교사와 LLM이 학생 실수를 시뮬레이션하는 방식으로 구성된 다단계 수학단어문제 기반의 3,000개 샘플 대화 튜터링 데이터셋인 MATHDIAL을 소개한다. 이 데이터셋은 LLM을 튜터로 효과적으로 훈련시키기 위해 교육학적으로 타당한 서포트 구조를 제공하며, 솔루션 泄露를 줄이고 학생 성공률을 높여 제로샷 LLM보다 뛰어난 성능을 발휘한다.

ABSTRACT

While automatic dialogue tutors hold great potential in making education personalized and more accessible, research on such systems has been hampered by a lack of sufficiently large and high-quality datasets. Collecting such datasets remains challenging, as recording tutoring sessions raises privacy concerns and crowdsourcing leads to insufficient data quality. To address this, we propose a framework to generate such dialogues by pairing human teachers with a Large Language Model (LLM) prompted to represent common student errors. We describe how we use this framework to collect MathDial, a dataset of 3k one-to-one teacher-student tutoring dialogues grounded in multi-step math reasoning problems. While models like GPT-3 are good problem solvers, they fail at tutoring because they generate factually incorrect feedback or are prone to revealing solutions to students too early. To overcome this, we let teachers provide learning opportunities to students by guiding them using various scaffolding questions according to a taxonomy of teacher moves. We demonstrate MathDial and its extensive annotations can be used to finetune models to be more effective tutors (and not just solvers). We confirm this by automatic and human evaluation, notably in an interactive setting that measures the trade-off between student solving success and telling solutions. The dataset is released publicly.

연구 동기 및 목표

  • 교육 분야에서 대화식 튜터링 시스템을 훈련하기 위한 고품질, 확장 가능한 데이터셋의 부족을 해결하기 위해.
  • 실제 튜터링 대화를 수집할 때의 커뮤니티 기반 수 crowdsourcing 및 개인정보 침해 우려가 있는 녹음 기반 접근 방식의 한계를 극복하기 위해.
  • 인간 전문성과 LLM이 시뮬레이션한 학생 실수를 융합한 반합성적 데이터 수집 프레임워크를 개발하여 교육학적으로 풍부한 대화를 생성하기 위해.
  • 솔루션을 조기에 폭 드러내지 않고 공정하고 서포트 기반 피드백을 제공할 수 있도록 모델 훈련을 지원하는 데이터셋을 구축하기 위해.
  • 다양한 단계 수를 가진 문제에서 학생 성공률과 솔루션 泄露를 측정하여, 상호작용 기반 튜터링 성능을 평가하는 데 목적이 있는 훈련된 모델의 벤치마킹을 수행하기 위해.

제안 방법

  • 인간 교사와 LLM이 조합된 하이브리드 데이터 수집 프레임워크를 활용하여, 수학단어문제에서 흔히 발생하는 학생의 오해와 실수를 시뮬레이션하도록 프롬프트를 설정한다.
  • 교사는 개념적 이해를 증진시키기 위해 4가지 교사 행동(예: 명확화, 탐색, 요약, 재지향)의 분류 체계를 사용하여 시뮬레이션된 학생을 이끌어간다.
  • 모든 대화는 GSM8K 데이터셋의 실제 수학단어문제를 기반으로 하며, 학생의 혼란, 정답, 피드백의 근거를 위한 주석이 포함되어 있다.
  • 교사 행동, 근거, 대화적 구조에 대한 풍부한 주석이 포함된 2,861개의 1:1 튜터링 대화가 포함되어 있다.
  • MATHDIAL 데이터를 사용하여 오픈소스 LLM(예: Flan-T5)을 훈련시켜 단순히 문제를 푸는 것 외에도 튜터로서의 역할을 수행하도록 한다.
  • 다양한 단계 수를 가진 문제에서 학생의 해결 성공률과 솔루션 泄露(해결책을 알려주는 것)를 측정함으로써, 상호작용 시뮬레이션을 통해 튜터 모델의 성능을 평가한다.

실험 결과

연구 질문

  • RQ1인간 튜터와 LLM이 시뮬레이션한 학생을 조합한 반합성적 데이터 수집 프레임워크가 고품질의 교육학적으로 풍부한 튜터링 대화를 생성할 수 있는가?
  • RQ2MATHDIAL에서의 훈련을 통해 모델이 솔루션 泄露를 피하면서 튜터로서의 능력을 얼마나 향상시킬 수 있는가?
  • RQ3다양한 복잡도의 문제에서 훈련된 모델의 성능은 제로샷 LLM(예: ChatGPT)과 비교해 학생 성공률과 솔루션 폭 드러남 측면에서 어떻게 다른가?
  • RQ4피드백에 서포트 기반 행동을 사용할 경우, 상호작용 튜터링 시뮬레이션에서 학생의 학습 성과가 향상되는가?

주요 결과

  • 훈련된 Flan-T5 모델은 5단계 수학문제에서 77%의 성공률을 기록하며, 제로샷 ChatGPT(57% 성공, 14% 솔루션 泄露)보다 상호작용 튜터링에서 뛰어난 성능을 보였다.
  • 10단계 문제에서는 훈련된 Flan-T5 모델이 68%의 성공률과 2%의 솔루션 泄露를 기록했으며, ChatGPT는 77%의 성공률이지만 20%의 솔루션 泄露를 보였다.
  • 모든 모델의 성공률은 2단계 이상의 문제에서 뚜렷하게 감소하여, 추론 일반화 능력 향상의 필요성을 시사한다.
  • 인간 평가 결과, ChatGPT는 튜터링을 요청받았을 때 솔루션을 66%의 비율로 폭 드러내며, 잘못된 피드백을 59%의 비율로 제공하는 것으로 확인되었다.
  • MATHDIAL 데이터셋을 통해 훈련된 모델는 더 큰 제로샷 LLM의 성공률를 따라하거나 초월하면서도, 상당히 낮은 솔루션 泄露를 유지할 수 있었다.
  • 이 데이터셋은 https://github.com/eth-nlped/mathdial 에 공개되어 있으며, 교육학적 기반의 대화 튜터링 연구를 위한 확장 가능한 기반을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.