Skip to main content
QUICK REVIEW

[논문 리뷰] Leveraging Large Language Models for Multiple Choice Question Answering

Joshua A. Robinson, Christopher Michael Rytting|arXiv (Cornell University)|2022. 10. 22.
Topic Modeling인용 수 40
한 줄 요약

이 논문은 다지선다 프롬프트(MCP)—답 옵션이 기호에 묶여 질문과 함께 제시되는 방식—로 LLM에 프롬프트를 제시하면 MCQA 성능이 크게 향상되며, 종종 cloze prompting(CP)을 능가하고 다수의 데이터셋에서 SOTA에 근접하거나 이를 능가하고, 특히 강력한 다지선다 기호 바인딩(MCSB) 능력을 가진 모델에서 그렇다.

ABSTRACT

While large language models (LLMs) like GPT-3 have achieved impressive results on multiple choice question answering (MCQA) tasks in the zero, one, and few-shot settings, they generally lag behind the MCQA state of the art (SOTA). MCQA tasks have traditionally been presented to LLMs like cloze tasks. An LLM is conditioned on a question (without the associated answer options) and its chosen option is the one assigned the highest probability after normalization (for length, etc.). A more natural prompting approach is to present the question and answer options to the LLM jointly and have it output the symbol (e.g., "A") associated with its chosen answer option. This approach allows the model to explicitly compare answer options, reduces computational costs, and mitigates the effects of tokenization scheme and answer option representations on answer selection. For the natural approach to be effective, the LLM it is used with must be able to associate answer options with the symbols that represent them. The LLM needs what we term multiple choice symbol binding (MCSB) ability. This ability varies greatly by model. We show that a model with high MCSB ability performs much better with the natural approach than with the traditional approach across 20 diverse datasets and largely closes the gap with the SOTA, suggesting that the MCQA ability of LLMs has been previously underestimated.

연구 동기 및 목표

  • 대형 언어 모델에서 MCQA를 위한 cloze prompting의 한계점을 동기 부여하고 형식화한다.
  • 답 옵션을 기호에 묶고 그 중에서 선택하도록 모델을 프롬프트하는 대안으로 다지선다 프롬프팅(MCP)을 제안한다.
  • 효과적인 MCP를 위한 핵심 능력으로 다지선다 기호 바인딩(MCSB)을 도입하고 형식화한다.
  • 다양한 MCSB 능력을 가진 모델을 사용하여 20개 다양한 MCQA 데이터셋에 대해 MCP를 실증적으로 평가하고 SOTA와 비교한다.

제안 방법

  • cloze prompting(CP)와 다지선다 프롬프팅(MCP)을 정의하고 대조한다.
  • 답 순서에 관계없이 답 옵션을 기호와 일관되게 연결하는 능력으로 다지선다 기호 바인딩(MCSB)을 도입한다.
  • OpenBookQA에서 PPA(Proportion of Plurality Agreement)를 사용하여 MCSB에 대해 GPT-3, Codex, InstructGPT 등 여러 LLM을 평가한다.
  • 다양한 정규화를 적용한 CP와 MCP를 비교하는 20개 MCQA 데이터셋에 걸친 대규모 실험을 수행한다.
  • 높은 MCSB 능력과 비용 고려로 Codex(Davinci)를 주요 평가 모델로 사용한다.
  • CP 및 MCP에서 제로샷, 원샷, few-shot 성능을 보고하고 MCP의 이점을 강조한다.

실험 결과

연구 질문

  • RQ1MCP가 LLM이 CP에 비해 답 옵션을 더 잘 활용하게 만드는가?
  • RQ2다양한 데이터셋에 걸친 MCP에서 모델의 MCSB 능력이 MCQA 성능에 어떤 영향을 미치는가?
  • RQ3작업별 튜닝 없이 광범위한 MCQA 작업에서 MCP가 SOTA와의 격차를 얼마나 좁힐 수 있는가?

주요 결과

  • MCP는 20개 데이터셋 중 16개에서 CP를 능가하며, 제로샷, 원샷, few-shot 설정 전반에서 CP 대비 평균 개선은 8.3–12.2 퍼센트포인트이다.
  • 20개 데이터셋 전체에서 MCP는 CP보다 평균 9.7퍼센트포인트의 차이를 보이고 일부 작업에서 최대 차이는 44%이다.
  • MCP는 20개 데이터셋 중 9개에서 이전 SOTA 점수를 상회하고, 단일 작업에서 최대 15%의 이득을 보이며, 데이터셋 전체에서 MCP 점수는 SOTA에 평균 0.6% 이내로 근접한다.
  • 높은 MCSB 능력을 가진 Codex와 Instruct 모델이 MCP에서 가장 큰 이득을 얻으며, 종종 작업별 특화 튜닝 없이도 SOTA에 근접하거나 이를 능가한다.
  • MCP는 작업과 예시 설정 전반에서 최상의 CP 전략보다 4.3배 더 적은 forward passes(API 호출)로 비슷하거나 더 나은 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.