[论文解读] Pushing the Limits of ChatGPT on NLP Tasks
本文分析了 ChatGPT 在自然语言处理任务中表现不佳的原因,并提出了一系列增强策略(提示多样性、任务形式化、检索、推理、自我验证、改述),这些策略在 21 个数据集和 10 个 NLP 任务上显著提升其性能,达到甚至超过有监督基线。
Despite the success of ChatGPT, its performances on most NLP tasks are still well below the supervised baselines. In this work, we looked into the causes, and discovered that its subpar performance was caused by the following factors: (1) token limit in the prompt does not allow for the full utilization of the supervised datasets; (2) mismatch between the generation nature of ChatGPT and NLP tasks; (3) intrinsic pitfalls of LLMs models, e.g., hallucination, overly focus on certain keywords, etc. In this work, we propose a collection of general modules to address these issues, in an attempt to push the limits of ChatGPT on NLP tasks. Our proposed modules include (1) a one-input-multiple-prompts strategy that employs multiple prompts for one input to accommodate more demonstrations; (2) using fine-tuned models for better demonstration retrieval; (3) transforming tasks to formats that are more tailored to the generation nature; (4) employing reasoning strategies that are tailored to addressing the task-specific complexity; (5) the self-verification strategy to address the hallucination issue of LLMs; (6) the paraphrase strategy to improve the robustness of model predictions. We conduct experiments on 21 datasets of 10 representative NLP tasks, including question answering, commonsense reasoning, natural language inference, sentiment analysis, named entity recognition, entity-relation extraction, event extraction, dependency parsing, semantic role labeling, and part-of-speech tagging. Using the proposed assemble of techniques, we are able to significantly boost the performance of ChatGPT on the selected NLP tasks, achieving performances comparable to or better than supervised baselines, or even existing SOTA performances.
研究动机与目标
- 识别限制 ChatGPT 在 NLP 任务上的主要因素(令牌数量限制、任务错配、推理差距、幻觉/错误信息)。
- 开发一个通用工具包,以提升 ChatGPT 在各类 NLP 任务上的性能。
- 在涵盖问答、推理、NER、NER-关系、情感分析、解析等广泛数据集上展示有效性。
提出的方法
- 一种输入多提示的方法,在令牌限制内扩展演示并通过投票进行集成。
- 使用 FT 检索,以获取任务特定的演示,从而提升提示质量。
- 将任务转换为便于生成的格式,并引入针对任务的推理(chain-of-thought)解释。
- 对任务进行恰当的形式化以使 NLP 任务与生成对齐,包括 copy-modify 和 N-binary 与 N-class 方法。
- 通过后生成验证进行自我验证以减轻幻觉。
- 改述策略,通过评估输入的多种改述来提高鲁棒性。

实验结果
研究问题
- RQ1通过多提示增加演示的数量和多样性,是否能缩小 ChatGPT 与有监督基线之间的差距?
- RQ2针对任务的演示检索(特别是 FT)是否能提升 ChatGPT 的表现,超过随机或通用检索?
- RQ3将任务形式化以利于生成和推理,是否能提升 ChatGPT 在多种 NLP 任务上的准确性?
- RQ4自我验证和改述在多大程度上缓解幻觉并提升鲁棒性?
主要发现
- 一种输入多提示策略通过提供更多演示并进行投票,在 21 个数据集上带来显著提升。
- 微调检索(FT)在演示相关性方面显著优于随机或通用语义检索,缩小了与有监督基准的差距。
- 以推理为导向的提示(包括 chain-of-thought 推理)在各任务上提升性能,且与其他策略结合时效果更显著。
- 自我验证(SV)持续提升性能并减少幻觉,特别是在 NER 与 CB/NLI 场景中。
- 改述策略通过降低令牌支配效应并在改述之间进行投票,提升句子级任务的鲁棒性。
- 在问答、常识推理、NLI、情感分析、NER 以及相关任务中,所组装的策略集在若干数据集上实现的性能可与有监督基线相当甚至更好;在特定任务(如 QA、SST-2、NER 和实体关系)中有显著提升。
- 在领域外 MRQA-OOD 上,使用所提方法的 ChatGPT 可以超越一些有监督基线,表明具备较强的领域适应性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。