Skip to main content
QUICK REVIEW

[논문 리뷰] MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms

Aida Amini, Saadia Gabriel|arXiv (Cornell University)|2019. 05. 30.
Topic Modeling참고 문헌 22인용 수 119
한 줄 요약

수학 단어 문제를 위한 완전히 명시된 연산 프로그램을 갖춘 대규모 데이터셋 MathQA를 소개하고, 문제를 실행 가능한 연산 시퀀스로 매핑하기 위해 도메인 인지 분류를 사용하는 신경 시퀀스-투-프로그램 모델을 제시합니다. 이 접근 방식은 MathQA와 AQuA에서 베이스라인보다 성능이 향상되지만 인간 성능에는 미치지 못합니다.

ABSTRACT

We introduce a large-scale dataset of math word problems and an interpretable neural math problem solver that learns to map problems to operation programs. Due to annotation challenges, current datasets in this domain have been either relatively small in scale or did not offer precise operational annotations over diverse problem types. We introduce a new representation language to model precise operation programs corresponding to each math problem that aim to improve both the performance and the interpretability of the learned models. Using this representation language, our new dataset, MathQA, significantly enhances the AQuA dataset with fully-specified operational programs. We additionally introduce a neural sequence-to-program model enhanced with automatic problem categorization. Our experiments show improvements over competitive baselines in our MathQA as well as the AQuA dataset. The results are still significantly lower than human performance indicating that the dataset poses new challenges for future research. Our dataset is available at: https://math-qa.github.io/math-QA/

연구 동기 및 목표

  • 정밀한 연산 프로그램을 갖춘 수학 단어 문제의 대규모, 밀집 주석 데이터세트를 제공한다.
  • 수학 단어 문제를 해결하기 위한 새로운 연산 기반 표현 언어를 제안하여 해석 가능성과 성능을 향상시킨다.
  • 문제 도메인 분류가 있는 신경 시퀀스-투-프로그램 모델을 개발하여 문제를 연산 프로그램으로 매핑한다.

제안 방법

  • 문제 해결 단계를 모델링하기 위해 58개의 연산과 인자를 갖는 형식적인 연산-프로그램 표현 언어를 정의한다.
  • 동적 주석 플랫폼을 사용하여 문제를 연산 프로그램과 일치시키는 주석을 크라우드소싱한다.
  • 문제-대-프로그램 매핑을 신경 기계 번역으로 다루고, 문제 텍스트에서 연산 프로그램을 생성하기 위해 인코더-디코더 모델을 학습한다.
  • 도메인 인식 분류를 통해 디코딩을 문제 도메인에 조건화하도록 모델을 확장한다.
  • 해독된 연산 프로그램을 순차적으로 실행하여 해답을 얻고 빔 서치를 통해 객관식 선택지와 정렬한다.
  • MathQA 및 AQuA 데이터셋에서 평가하고 베이스라인 및 이전의 최첨단과 비교한다.

실험 결과

연구 질문

  • RQ1연산 기반 형식이 수학 단어 문제 해결의 해석 가능성과 성능을 향상시킬 수 있는가?
  • RQ2도메인 인식 분류를 시퀀스-투-프로그램 모델에 도입하면 다양한 수학 문제 도메인에서 풀이 정확도가 향상되는가?
  • RQ3제안된 MathQA 데이터셋과 표현이 AQuA와 같은 기존 데이터셋과 비교했을 때 신경 해결사 성능에 어떤 영향을 미치는가?

주요 결과

모델MathQAAQuA
랜덤20.020.0
AQuA 모델-36.4
Seq2prog51.933.0
Seq2prog + cat54.237.9
  • 카테고리화를 갖춘 Seq2prog 모델은 MathQA 및 AQuA 테스트 세트 모두에서 기본 Seq2prog 모델보다 성능이 우수하다.
  • Seq2prog의 MathQA 및 AQuA 테스트 정확도는 각각 51.9와 33.0이며; Seq2prog + cat은 각각 54.2와 37.9이다.
  • MathQA에서의 모델 성능은 여전히 인간 성능 미만이며, 이는 이 데이터셋이 향후 연구를 위한 새로운 도전을 제시함을 나타낸다.
  • 크라우드소싱된 연산 프로그램은 문제 맥락과 정합된 정밀하고 해석 가능한 추론 단계를 가능하게 한다.
  • 카테고리 인지 모델은 작지만 일관된 정확도 향상을 가져오며, 일부에 대해 인간 주석자들이 모델 분류와 84%의 일치를 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.