[논문 리뷰] Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems
이 논문은 Wolfram Alpha와 Code Interpreter 플러그인을 사용해 105개의 원래 수학 및 과학 문제를 평가하고, 강점과 인터페이스 실패, 개선된 플러그인 연동의 필요성을 논의한다.
This report describes a test of the large language model GPT-4 with the Wolfram Alpha and the Code Interpreter plug-ins on 105 original problems in science and math, at the high school and college levels, carried out in June-August 2023. Our tests suggest that the plug-ins significantly enhance GPT's ability to solve these problems. Having said that, there are still often "interface" failures; that is, GPT often has trouble formulating problems in a way that elicits useful answers from the plug-ins. Fixing these interface failures seems like a central challenge in making GPT a reliable tool for college-level calculation problems.
연구 동기 및 목표
- WA와 CI 플러그인을 사용하여 고등학교 및 대학 수준의 원래 과학 및 수학 문제에서 GPT-4의 성능을 평가한다.
- 구조화된 문제 세트에서 플러그인 포함 GPT-4와 단독 GPT-4를 비교한다.
- 플러그인 보조 문제 해결의 구체적 강점과 약점을 식별한다.
- 인터페이스 실패를 문서화하고 플러그인 기반 계산 작업의 신뢰성 향상을 위한 제안을 제시한다.
제안 방법
- 세 가지 원래 문제 세트가 생성되었다: Arbitrary Numerical, Calculation-Free, 그리고 Motivated Numerical.
- 첫 두 데이터 세트에서 먼저 Wolfram Alpha(GPT4+WA)와 Code Interpreter(GPT4+CI)로 테스트한 후 세 번째 데이터 세트로 진행했다.
- 문제는 서로 다른 세션에서 실행되어 문제 간 오염을 피했고, 주의 깊은 주석 달기와 수동 평가가 수행되었다.
- 결과는 분류된 과학 및 수학 과제에 걸친 질적 및 양적 점수를 포함한다.
- 본 연구는 출력과 잘못된 분석이나 문제를 오해한 유형의 오류를 비교하여 신뢰성을 평가한다.
실험 결과
연구 질문
- RQ1초안된 문제 세트에서 WA 또는 CI를 가진 GPT-4가 단독 GPT-4보다 더 우수한가?
- RQ2GPT-4에서 플러그인을 호출할 때 흔한 인터페이스 실패는 무엇이며 문제 해결에 어떤 영향을 미치는가?
- RQ3어떤 유형의 문제에서 플러그인이 가장 큰 이점을 제공하거나 신뢰성 있게 기여하지 못하는가?
- RQ4WA와 CI가 수치적, 기호적, 공간적 추론 과제에서 GPT-4의 능력을 어떻게 보완하거나 중복하는가?
주요 결과
- 테스트된 문제에서 플러그인 중 하나를 사용한 GPT-4는 일반적으로 단독 GPT-4보다 더 높은 성능을 보인다.
- 인터페이스 실패가 흔하며, 특히 플러그인용 문제를 형상화하는 데서 신뢰성이 저하된다.
- 플러그인은 단일 공식으로 해결 가능한 문제에서 가장 강하고, 공간 시각화나 다단계 다도메인 계산에서는 약하다.
- GPT-4는 때때로 플러그인이 더 신뢰성 있게 처리할 수 있는 계산이나 기호 조작을 수행한다.
- 보고된 점수는 작은 비재현 가능 테스트 세트로 인해 통계적으로 결정적이지 않지만 WA와 CI에 대한 주목할 만한 강점과 약점을 시사한다.
- 두 플러그인 모두 보완적 강점과 약점을 보이며, 모든 작업에서 어느 쪽도 명확히 우수하지 않다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.