[논문 리뷰] Retrieval-augmented Generation to Improve Math Question-Answering: Trade-offs Between Groundedness and Human Preference
이 논문은 오픈 소스 수학 교과서를 검색 기반 생성 시스템으로 활용하여 중등 수학 문제에 답하고 프롬프트 가이드가 grounding과 인간 선호에 미치는 영향을 분석하여 groundedness와 유용성 인식 사이의 균형을 드러낸다.
For middle-school math students, interactive question-answering (QA) with tutors is an effective way to learn. The flexibility and emergent capabilities of generative large language models (LLMs) has led to a surge of interest in automating portions of the tutoring process - including interactive QA to support conceptual discussion of mathematical concepts. However, LLM responses to math questions can be incorrect or mismatched to the educational context - such as being misaligned with a school's curriculum. One potential solution is retrieval-augmented generation (RAG), which involves incorporating a vetted external knowledge source in the LLM prompt to increase response quality. In this paper, we designed prompts that retrieve and use content from a high-quality open-source math textbook to generate responses to real student questions. We evaluate the efficacy of this RAG system for middle-school algebra and geometry QA by administering a multi-condition survey, finding that humans prefer responses generated using RAG, but not when responses are too grounded in the textbook content. We argue that while RAG is able to improve response quality, designers of math QA systems must consider trade-offs between generating responses preferred by students and responses closely matched to specific educational resources.
연구 동기 및 목표
- 중학생을 대상으로 LLM을 사용하여 개념 중심의 수학 QA를 동기 부여하고 평가한다.
- 검색-augmented generation(RAG)이 응답을 검증된 커리큘럼에 근거하도록 grounding을 할 수 있는지 조사한다.
- 프롬프트 가이드 수준이 grounding과 인간 선호에 미치는 영향을 탐구한다.
- 검색된 문서의 관련성과 grounding 간의 관계를 평가한다.
- 교육 자료의 정렬과 사용자 만족도 사이의 트레이드오프를 식별한다.
제안 방법
- OpenStax Prealgebra 교과서 코퍼스를 하위 섹션으로 분할하여 RAG-활성 수학 QA 시스템을 구축한다.
- 텍스트 임베딩-ada-002를 사용한 코사인 유사도를 이용하여 학생의 질문에 가장 관련성이 높은 교과서 섹션을 검색한다.
- 세 가지 프롬프트 가이드 조건(None, Low, High) 하에서 gpt-3.5-turbo-0613 모델로 응답을 생성한다.
- 정보 검색 프롬프트 조건을 포함하여 질문과 가장 관련성이 높은 문단을 반복하는 조건을 포함한다.
- grounding을 평가하기 위해 세 가지 지표(K-F1++, BLEURT, BERTScore)를 사용하고, 교차 피실험자 설문에서 인간 선호 순위를 수집한다.
- 프롬프트 가이드 조건 간 응답을 비교하여 grounding과 인지된 유용성에 미치는 영향을 평가한다.]
- research_questions:[
실험 결과
연구 질문
- RQ1검색 기반 생성(RAG)과 프롬프트 엔지니어링이 LLM-생성 수학 설명의 grounding을 높일 수 있는가?
- RQ2RAG를 활용한 개념적 수학 QA에서 인간은 더 grounding된 응답을 선호하는가, 아니면 덜 grounding된 응답을 선호하는가?
- RQ3교재 콘텐츠의 검색 관련성이 grounding 및 사용자 선호도에 어떤 영향을 미치는가?
- RQ4자동 grounding 지표와 인간 판단 간의 관계는 어떤가?
주요 결과
- 프롬프트 가이드가 높지 않을 때 RAG로 생성된 응답을 humans가 선호하는 경향이 있어 grounding과 유용성 사이의 균형이 필요함을 시사한다.
- groundedness는 더 많은 가이드를 통해 향상되지만, 높은 가이드는 낮은 가이드에 비해 선호도에서 우위를 보이지 못했다.
- 검색된 문서의 관련성은 인지된 grounding과 상관관계가 있지만 인간 선호의 일관된 예측 요인은 아니다.
- 자동 grounding 지표는 인간 판단과 약한 상관을 보이며, K-F1++가 grounding과의 가장 강한 연관성을 보인다.
- 트레이드오프가 존재한다: 교재 콘텐츠에 매우 grounded된 응답은 답변 스타일이나 유용성을 지나치게 제한할 경우 선호도가 낮아질 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.