Skip to main content
QUICK REVIEW

[논문 리뷰] Pushing the Limits of ChatGPT on NLP Tasks

Xiaofei Sun, Linfeng Dong|arXiv (Cornell University)|2023. 06. 16.
Topic Modeling인용 수 10
한 줄 요약

페이퍼는 왜 ChatGPT가 NLP 과제에서 성능이 저하되는지 분석하고, 프롬프트 다양성, 작업 형식화, 검색, 추론, 자기 검증, 의역(paraphrase) 등 일련의 강화 전략을 제시하여 21개 데이터셋과 10개 NLP 과제 전반에서 성능을 크게 향상시키고 감독기반 베이스라인에 근접하거나 이를 능가한다.

ABSTRACT

Despite the success of ChatGPT, its performances on most NLP tasks are still well below the supervised baselines. In this work, we looked into the causes, and discovered that its subpar performance was caused by the following factors: (1) token limit in the prompt does not allow for the full utilization of the supervised datasets; (2) mismatch between the generation nature of ChatGPT and NLP tasks; (3) intrinsic pitfalls of LLMs models, e.g., hallucination, overly focus on certain keywords, etc. In this work, we propose a collection of general modules to address these issues, in an attempt to push the limits of ChatGPT on NLP tasks. Our proposed modules include (1) a one-input-multiple-prompts strategy that employs multiple prompts for one input to accommodate more demonstrations; (2) using fine-tuned models for better demonstration retrieval; (3) transforming tasks to formats that are more tailored to the generation nature; (4) employing reasoning strategies that are tailored to addressing the task-specific complexity; (5) the self-verification strategy to address the hallucination issue of LLMs; (6) the paraphrase strategy to improve the robustness of model predictions. We conduct experiments on 21 datasets of 10 representative NLP tasks, including question answering, commonsense reasoning, natural language inference, sentiment analysis, named entity recognition, entity-relation extraction, event extraction, dependency parsing, semantic role labeling, and part-of-speech tagging. Using the proposed assemble of techniques, we are able to significantly boost the performance of ChatGPT on the selected NLP tasks, achieving performances comparable to or better than supervised baselines, or even existing SOTA performances.

연구 동기 및 목표

  • NLP 과제에서 ChatGPT를 제약하는 주요 요인을 식별한다(토큰 제한, 작업 불일치, 추론 격차, 환각).
  • 다양한 NLP 과제 전반에서 ChatGPT 성능을 끌어올리기 위한 일반 도구 키트를 개발한다.
  • QA, 추론, NER, NER-관계, 감정 분석, 구문 분석 등 광범위한 데이터셋에 대해 효과를 입증한다.

제안 방법

  • 한 입력에 대해 다수의 프롬프트를 사용하여 시연을 확장하고, 투표를 통해 앙상블한다.
  • FT-retrieval를 사용하여 작업별 시연을 검색해 프롬프트 품질을 높인다.
  • 생성 친화적인 형식으로 작업을 변환하고 작업에 맞춘 추론(chain-of-thought) 설명을 포함한다.
  • 생성과의 정합성을 높이기 위한 적절한 작업 형식화로 NLP 작업을 구성하며, copy-modify 및 N-binary 대 N-class 접근법을 포함한다.
  • 생성 후 검증을 이용한 자기 검증으로 환각을 완화한다.
  • 입력의 여러 패러프레이즈를 평가하여 강건성을 높이기 위한 paraphrase(paraphrase) 전략으로 활용한다.
Figure 1: Task Formalizations under ChatGPT, including question answering, commonsense reasoning, natural language inference, sentiment analysis, named entity recognition, entity-relation extraction, event extraction, dependency parsing, semantic role labeling, and part-of-speech tagging.
Figure 1: Task Formalizations under ChatGPT, including question answering, commonsense reasoning, natural language inference, sentiment analysis, named entity recognition, entity-relation extraction, event extraction, dependency parsing, semantic role labeling, and part-of-speech tagging.

실험 결과

연구 질문

  • RQ1다수의 프롬프트를 통한 시연의 수와 다양성을 증가시키면 ChatGPT와 감독 학습 기반 간의 격차를 줄일 수 있는가?
  • RQ2작업별 시연 검색(특히 FT 기반)이 무작위 또는 일반 목적 검색을 넘어 ChatGPT의 성능을 향상시키는가?
  • RQ3생성 친화적 작업 형식화와 추론이 다양한 NLP 과제에서 ChatGPT의 정확도를 향상시키는가?
  • RQ4자기 검증과 패러프레이즈가 얼마나 환각을 줄이고 강건성을 향상시키는가?

주요 결과

  • 한 입력 다 프롬프트 전략은 더 많은 시연을 가능하게 하고 21개 데이터셋에서 투표를 통해 상당한 이득을 제공합니다.
  • 미세 조정된 검색(FT)은 무작위 또는 일반 시맨틱 검색보다 시연 관련성을 크게 향상시켜 감독 기반 베이스라인과의 격차를 줄습니다.
  • 추론 지향 프롬프트(생각의 연쇄 포함)들은 과제 전반에서 성능을 향상시키며, 다른 전략과 결합될 때 이점이 더욱 커집니다.
  • 자기 검증(SV)은 일관되게 성능을 향상시키고 환각을 감소시키며, 특히 NER 및 CB/NLI 설정에서 두드러집니다.
  • 패러프레이즈 전략은 입력 문장 수준의 작업에서 토큰 지배 효과를 줄이고 패러프레이즈 간 투표를 가능하게 하여 강건성을 향상시킵니다.
  • QA, 상식 추론, NLI, 감정 분석, NER 및 관련 과제 전반에 걸쳐 구성된 전략 세트가 여러 데이터셋에서 감독기반 베이스라인에 비해 유사하거나 더 나은 성능을 달성합니다; 특히 QA, SST-2, NER 및 엔터티-관계 등 특정 과제에서 두드러진 이득이 보고됩니다.
  • 도메인 외 MRQA-OOD에서 제안된 방법들을 적용한 ChatGPT가 일부 감독 기반 베이스라인을 능가할 수 있어 강한 도메인 적응력을 시사합니다.
Figure 2: Comparisons of experiment results on ten NLP downstream tasks.
Figure 2: Comparisons of experiment results on ten NLP downstream tasks.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.