QUICK REVIEW

[논문 리뷰] An automatically discovered chain-of-thought prompt generalizes to novel models and datasets

Konstantin Hebenstreit, Robert Praas|arXiv (Cornell University)|2023. 05. 04.

Topic Modeling인용 수 10

한 줄 요약

이 연구는 제로샷 체인-오브-사고 프롬프트가 여러 새로운 LLM과 데이터셋에 걸쳐 일반화되며, GPT-4가 자동으로 발견된 CoT 프롬프트로부터 뚜렷한 혜택을 얻는다는 것을 보여준다.

ABSTRACT

Emergent chain-of-thought (CoT) reasoning capabilities promise to improve performance and explainability of large language models (LLMs). However, uncertainties remain about how reasoning strategies formulated for previous model generations generalize to new model generations and different datasets. In this small-scale study, we compare different reasoning strategies induced by zero-shot prompting across six recently released LLMs (davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl and Cohere command-xlarge) on a mixture of six question-answering datasets, including datasets from scientific and medical domains. Our findings demonstrate that while some variations in effectiveness occur, gains from CoT reasoning strategies remain robust across different models and datasets. GPT-4 has the most benefit from current state-of-the-art reasoning strategies and exhibits the best performance by applying a prompt previously discovered through automated discovery.

연구 동기 및 목표

GPT-4를 포함한 다양한 모델 세대와 다양한 QA 데이터셋에서 제로샷 체인-오브-사고 프롬프트 전략의 성능을 평가한다.
자동화된 방법으로 발견된 CoT 프롬프트의 강건성 및 일반화 가능성을 평가한다.
과학, 의학 및 일반상식 QA 작업에서 직접 프롬프트에 비해 다양한 추론 전략을 비교한다.
데이터셋과 모델에 걸쳐 어떤 프롬프트가 효과를 유지하는지 조사하고, 데이터셋 또는 모델 특이적 효과를 식별한다.

제안 방법

ThoughtSource를 데이터 프레임워크로 사용하여 상식, 과학 및 의학 영역에 걸친 여섯 개의 다지선다형 QA 데이터셋을 구성한다.
베이스라인 한 가지, 기존 두 가지, 새로운 설계 일곱 가지를 포함하여 자가 비판 변형을 포함한 열 가지 제로샷 추론 프롬프트를 구성한다.
고정된 온도와 토큰 제약 하에서 제로샷 프롬프트를 통해 여섯 개의 지시 튜닝 모델(davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl, Command-xlarge)을 평가한다.
크리펜더롤프의 알파를 사용하여 정답과의 일치를 측정하고, 부트스트래핑(1000샘플)을 통해 평균 및 95% 신뢰구간을 계산한다.
데이터셋 및 모델 특이 효과를 분석하고 모델별 및 데이터셋별 성능을 보고한다.

실험 결과

연구 질문

RQ1이전 모델 세대에서 발견된 제로샷 CoT 프롬프트가 새로운 LLM과 본 적이 없는 데이터셋으로 일반화되는가?
RQ2자동으로 발견된 CoT 프롬프트가 모델과 데이터셋 전반에서 확립된 프롬프트(예: Kojima, Zhou)와 어떻게 비교되는가?
RQ3CoT 프롬 prompting에서 가장 강건한 이득을 보이는 데이터셋은 무엇이며, 이러한 전략에서 가장 큰 이점을 얻는 모델은 어떤 모델인가?
RQ4CoT 효율성에 영향을 주는 주목할 만한 한계나 모델/데이터셋 특이 문제가 있는가?
RQ5CoT 프롬프트를 사용할 때와 직접 프롬프트를 사용할 때 모델 간의 전반적인 성능 계층은 무엇인가?

주요 결과

추론을 포함한 프롬핑은 일반적으로 모델 프롬프트와 데이터셋 전반에서 직접 프롬핑보다 우수한 성능을 보인다.
GPT-4는 추론 프롬프트로부터 가장 큰 이점을 얻으며, Zhou의 자동으로 발견된 프례프트는 설정에 따라 알파가 약 0.68–0.78로 다양한 모델에서 강한 성능을 유지한다.
자가비판 프롬프트는 비교적 저조한 성능을 보이며 채점에서 제외된 여러 답을 생성할 수 있다.
WorldTree v2와 CommonsenseQA는 더 우수한 모델일수록 더 쉬워지며, StrategyQA는 데이터셋 특정 약점으로 더 많은 데이터셋 정제가 필요하다.
GPT-3.5-turbo와 GPT-4가 가장 강한 모델 전반의 성능을 보이며, 테스트된 모델 중 GPT-4가 최상의 전반적 결과를 보인다(예: 평균 알파 약 0.78).
Flan-T5-xxl은 자기 크기에 비해 우수하게 작동하나 일부 서브 데이터셋의 학습 데이터로 인한 데이터 오염으로 영향을 받을 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.