[논문 리뷰] When do you need Chain-of-Thought Prompting for ChatGPT?
이 논문은 Chain-of-Thought prompting이 ChatGPT(지시사항으로 미세조정된 LLM)에서 여전히 유용한지 여부를 조사하고, ChatGPT가 종종 CoT를 기억하고 명시적 CoT 프롬프트 없이도 산술 과제에서 성능이 향상될 수 있으며, 반면 CoT가 산술 연산의 성능을 저해하고 비산술 과제에서는 효과가 가변적이라는 점을 발견한다.
Chain-of-Thought (CoT) prompting can effectively elicit complex multi-step reasoning from Large Language Models~(LLMs). For example, by simply adding CoT instruction ``Let's think step-by-step'' to each input query of MultiArith dataset, GPT-3's accuracy can be improved from 17.7\% to 78.7\%. However, it is not clear whether CoT is still effective on more recent instruction finetuned (IFT) LLMs such as ChatGPT. Surprisingly, on ChatGPT, CoT is no longer effective for certain tasks such as arithmetic reasoning while still keeping effective on other reasoning tasks. Moreover, on the former tasks, ChatGPT usually achieves the best performance and can generate CoT even without being instructed to do so. Hence, it is plausible that ChatGPT has already been trained on these tasks with CoT and thus memorized the instruction so it implicitly follows such an instruction when applied to the same queries, even without CoT. Our analysis reflects a potential risk of overfitting/bias toward instructions introduced in IFT, which becomes more common in training LLMs. In addition, it indicates possible leakage of the pretraining recipe, e.g., one can verify whether a dataset and instruction were used in training ChatGPT. Our experiments report new baseline results of ChatGPT on a variety of reasoning tasks and shed novel insights into LLM's profiling, instruction memorization, and pretraining dataset leakage.
연구 동기 및 목표
- 다양한 추론 과제에 걸쳐 ChatGPT와 GPT-3에서 세 가지 제로샷 프롬프팅 전략의 효과를 평가한다.
- 지시미세조정(IFT) 및 RLHF 이후에도 ChatGPT에 대한 CoT 프롬프팅이 여전히 유익한지 여부를 검토한다.
- 관찰된 행태가 지시사항 암기 및 사전학습 데이터 누출 가능성을 시사하는지 분석한다.
- 데이터세트 추론 공격 및 LLM 프로파일링에 대한 시사점을 탐구한다.
제안 방법
- GPT-3와 ChatGPT에서 세 가지 제로샷 프롬프팅 전략을 비교한다: (i) 트리거 단어를 사용한 제로샷, (ii) 지시 없이 제로샷(이전 답변이 있는 2단계), (iii) CoT 지시를 포함한 제로샷(2단계).
- 확립된 데이터세트(GSM8K, MultiArith, AddSub, SVAMP, AQuA, SingleOp, CSQA, StrategyQA, Last Letter, Coin-flip, Date, Object)를 사용하여 산술, 상식, 기호적 및 기타 추론 과제를 테스트한다.
- 정확도 결과를 보고 모델과 과제 간의 패턴을 분석하여 지시사항 암기 및 프례핑 효과를 평가한다.
- 사전학습 레시피 누출 및 데이터세트 추론에 대한 시사점을 논의하고, 연구 결과를 IFT 및 RLHF 관행과 연계한다.
실험 결과
연구 질문
- RQ1CoT 프롬프 팅이 작업 유형 전반에 걸쳐 ChatGPT의 제로샷 추론을 계속 향상시키는가?
- RQ2ChatGPT의 성능이 지시 미세조정에서 암기된 CoT 지시사항의 영향을 받는가?
- RQ3프롬프팅의 차이가 LLM의 사전학습 데이터 누출이나 과제/지시 누출을 드러낼 수 있는가?
주요 결과
- ChatGPT는 산술 과제에 대해 프롬pt 없이도 CoT와 유사한 단계를 자발적으로 생성하여 고품질의 정답을 도출하는 경향이 있다.
- CoT 프롬프팅은 산술 추론에서 ChatGPT의 성능을 일관되게 향상시키지 못하며 여러 산술 과제에서 정확도를 낮출 수도 있다.
- 비산술 추론 과제에서는 CoT 프롬프팅이 일반적으로 ChatGPT를 GPT-3와 비슷하게 향상시키며, 과제에 따라 효과가 다르다.
- ChatGPT의 암묵적 CoT 지시 암기(Inferred CoT instruction memorization)는 IFT의 결과로, 명시적 CoT 프롬프트보다 더 나은 성능을 발휘할 수 있으며 IFT 지시에 대한 과적합 가능성을 시사한다.
- 트리거 단어와 CoT 간의 프롬프팅 패턴 차이는 ChatGPT에서 사전학습 레시피나 데이터세트 누출의 가능성을 시사할 수 있다.
- 본 연구는 다양한 과제에서 ChatGPT의 제로샷 추론에 대한 기본선을 제공하며, 과제 및 프롬프트 의존적 행동을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.